1. 前言
通过Pggb做完了图泛的构建,接下来就要找到关键基因的SV,因此使用ANNOVAR来完成这项工作。
2. 软件下载
ANNOVAR下载需要通过官方文档提交注册信息,然后会通过邮件发送软件的下载地址。
下载转换格式需要的gtftogenepred软件
mamba install bioconda::ucsc-gtftogenepred
3. 准备输入文件
因为我做的是非模式物种的Vcf注释,所以要自己构建数据库
gtfToGenePred -genePredExt Arabidopsis_thaliana.TAIR10.27.gtf AT_refGene.txt
# -genePredExt 基因组注释gtf文件
perl retrieve_seq_from_fasta.pl --format refGene --seqfile Arabidopsis_thaliana.TAIR10.27.dna.genome.fa AT_refGene.txt -outfile AT_refGeneMrna.fa
# --format 指定格式
# --seqfile 基因组文件
# -outfile 输出的数据库文件
通过上面步骤,最后会生成了(1)AT_refGene.txt(2)AT_refGeneMrna.fa这两个数据库文件,是后续分析需要用到的。此外,ANNOCAR要求输入的变异文件不是vcf格式接下来只需要对vcf文件进行格式转换即可。
perl ~/Software/annovar/convert2annovar.pl -format vcf4old ../Total_vcf/Chr_1.vcf > Chr_1.avinput
4. 运行注释
perl ~/Software/annovar/annotate_variation.pl -geneanno -dbtype refGene -out Test_change -build Chrysanthemum_rhombifolium Chr_1_change.avinput ./
# -geneanno 指定注释类型
# -dbtype 数据库类型
# -out 输出结果前缀
#-build 构建的数据库文件的前缀
# ./ 数据库文件的路径,这里需要注意的是,一定要是和上边构建的前缀能对上。例如1)AT_refGene.txt(2)AT_refGeneMrna.fa的前缀就是AT
5. 输出结果
输出结果比较有用的就是.variant_function,格式如下
第一列:注释类型
第二列:变异所在的基因
第三列:染色体
第四列和第五列:起始位置和终止位置
intergenic evm.TU.Chr1.2(dist=1573),evm.TU.Chr1.3(dist=5608) Chr1 21438 21438 C T unknown 60
intergenic evm.TU.Chr1.2(dist=1600),evm.TU.Chr1.3(dist=5581) Chr1 21465 21465 T A unknown 60
intergenic evm.TU.Chr1.2(dist=1604),evm.TU.Chr1.3(dist=5577) Chr1 21469 21469 C T unknown 60
intergenic evm.TU.Chr1.2(dist=1609),evm.TU.Chr1.3(dist=5572) Chr1 21474 21474 C T unknown 60
intergenic evm.TU.Chr1.2(dist=1618),evm.TU.Chr1.3(dist=5563) Chr1 21483 21483 T A unknown 60
intergenic evm.TU.Chr1.2(dist=1621),evm.TU.Chr1.3(dist=5560) Chr1 21486 21486 T A unknown 60
intergenic evm.TU.Chr1.2(dist=1629),evm.TU.Chr1.3(dist=5552) Chr1 21494 21494 T C unknown 60
intergenic evm.TU.Chr1.2(dist=1650),evm.TU.Chr1.3(dist=5531) Chr1 21515 21515 T A unknown 60
intergenic evm.TU.Chr1.2(dist=1654),evm.TU.Chr1.3(dist=5527) Chr1 21519 21519 C T unknown 60
intergenic evm.TU.Chr1.2(dist=1659),evm.TU.Chr1.3(dist=5521) Chr1 21524 21525 TT CA unknown 60