小马的生信笔记

1. 前言

通过Pggb做完了图泛的构建,接下来就要找到关键基因的SV,因此使用ANNOVAR来完成这项工作。

2. 软件下载

ANNOVAR下载需要通过官方文档提交注册信息,然后会通过邮件发送软件的下载地址。

下载转换格式需要的gtftogenepred软件

mamba install bioconda::ucsc-gtftogenepred

3. 准备输入文件

因为我做的是非模式物种的Vcf注释,所以要自己构建数据库

gtfToGenePred -genePredExt Arabidopsis_thaliana.TAIR10.27.gtf AT_refGene.txt

# -genePredExt 基因组注释gtf文件

perl retrieve_seq_from_fasta.pl --format refGene --seqfile Arabidopsis_thaliana.TAIR10.27.dna.genome.fa AT_refGene.txt -outfile AT_refGeneMrna.fa

# --format 指定格式

# --seqfile 基因组文件

# -outfile 输出的数据库文件

通过上面步骤,最后会生成了(1)AT_refGene.txt(2)AT_refGeneMrna.fa这两个数据库文件,是后续分析需要用到的。此外,ANNOCAR要求输入的变异文件不是vcf格式接下来只需要对vcf文件进行格式转换即可。

				
					perl ~/Software/annovar/convert2annovar.pl -format vcf4old ../Total_vcf/Chr_1.vcf > Chr_1.avinput
				
			

4. 运行注释

				
					perl ~/Software/annovar/annotate_variation.pl -geneanno -dbtype refGene -out Test_change -build Chrysanthemum_rhombifolium Chr_1_change.avinput ./

# -geneanno 指定注释类型

# -dbtype 数据库类型

# -out 输出结果前缀

#-build 构建的数据库文件的前缀

# ./ 数据库文件的路径,这里需要注意的是,一定要是和上边构建的前缀能对上。例如1)AT_refGene.txt(2)AT_refGeneMrna.fa的前缀就是AT
				
			

5. 输出结果

输出结果比较有用的就是.variant_function,格式如下

第一列:注释类型

第二列:变异所在的基因

第三列:染色体

第四列和第五列:起始位置和终止位置

				
					intergenic      evm.TU.Chr1.2(dist=1573),evm.TU.Chr1.3(dist=5608)       Chr1    21438   21438   C       T       unknown 60
intergenic      evm.TU.Chr1.2(dist=1600),evm.TU.Chr1.3(dist=5581)       Chr1    21465   21465   T       A       unknown 60
intergenic      evm.TU.Chr1.2(dist=1604),evm.TU.Chr1.3(dist=5577)       Chr1    21469   21469   C       T       unknown 60
intergenic      evm.TU.Chr1.2(dist=1609),evm.TU.Chr1.3(dist=5572)       Chr1    21474   21474   C       T       unknown 60
intergenic      evm.TU.Chr1.2(dist=1618),evm.TU.Chr1.3(dist=5563)       Chr1    21483   21483   T       A       unknown 60
intergenic      evm.TU.Chr1.2(dist=1621),evm.TU.Chr1.3(dist=5560)       Chr1    21486   21486   T       A       unknown 60
intergenic      evm.TU.Chr1.2(dist=1629),evm.TU.Chr1.3(dist=5552)       Chr1    21494   21494   T       C       unknown 60
intergenic      evm.TU.Chr1.2(dist=1650),evm.TU.Chr1.3(dist=5531)       Chr1    21515   21515   T       A       unknown 60
intergenic      evm.TU.Chr1.2(dist=1654),evm.TU.Chr1.3(dist=5527)       Chr1    21519   21519   C       T       unknown 60
intergenic      evm.TU.Chr1.2(dist=1659),evm.TU.Chr1.3(dist=5521)       Chr1    21524   21525   TT      CA      unknown 60
				
			

发表评论

基因组专栏