小马的生信笔记

1. 背景

作为一个系统发育狂热爱好者,虽然现暂时不做系统发育研究的课题了,但是还是热衷于关注这个领域的高分文献和最新的软件。在我硕士的时候,大家做系统发育大部分都是筛选出几百,几千个基因,然后开始大规模的建树,仿佛基因越多,树越准。随着系统发育研究的不断深入,大家从一开始的做加法,逐渐过渡到做减法,剔除比对效果不好的基因,慢慢大家发现,并不是基因越多越好,一些比对效果或者本身就没什么系统发育信号的基因会对系统发育树存在影响。鄙人斗胆猜想,系统发育研究的理想情况会不会是利用最少的基因,最少的计算资源,最短的分析时间,得到最准确的系统发育关系?基于这个问题,今天发现了一个评估多序列比对多样性的软件,NEFFy。改软件能够评估每个MSA的多样性,其实也就是计算MSA是否存在明显的差别。那么我们是不是可以剔除掉那些低多样性的基因,只保留高多样性的基因,在不影响系统发育结果的情况下,大幅度减少分析时间。

2. 软件下载

				
					git clone https://github.com/Maryam-Haghani/Neffy.git
cd Neffy/
make
				
			

3. 运行

				
					~/Software/Neffy/neff --file=6128_trimAl.fas --norm=2 --gap_cutoff=0.5

MSA sequence length: 430
MSA depth:569
NEFF: 56.4998
				
			

NEFF就是衡量基因多样性的值,越高说明多样性越高,但是如果应用于系统发育分析,这个值的阈值应该怎么选还是一个问题。

发表评论

基因组专栏