小马的生信笔记

Getorganelle 组装质体基因组

Getorganelle 组装质体基因组

1. 前言

Getorganelle可以用来组装所有的质体基因组,但是比较常用是用来组装植物的叶绿体基因组。但是本人剑走偏锋决定用它来组装真菌的线粒体基因组。

2. 软件下载

mamba create -n Getorganelle

mamba activate Getorganelle

mamba install bioconda::getorganelle

3. 下载需要的数据库

get_organelle_config.py -a fungus_mt

4. 运行

# 基于reads进行组装
get_organelle_from_reads.py -1 Unknown_CG553-001R0007_good_1.fq.gz -2 Unknown_CG553-001R0007_good_2.fq.gz -R 20 -k 21,45,65,85,105 -F fungus_mt -o Unknown_CG553-001R0007_s -t 50

# -F 指定组装的基因组类型,我指定的是真菌的线粒体基因组,根据自己的需求更改

# 输出结果

在指定的输出文件夹中会有组装的结果,会出现三种情况

1. 完全成环 *complete*.fasta

2. 接近成环 *nearly-complete*.fasta

3. 没有成环 *scaffolds*.fasta

一般来说,只有完全成环才是可以用的,如果组装不成欢,可以通过以下几个方法重新组装可能会有改善。

(1)减小-W 参数的值

(2)-s 参数添加参考基因组

(3)增加 -R 参数,增加运行轮数 

(4)添加–max-reads inf 和 –reduce-reads-for-coverage,这两个参数就是增加组装使用的reads,但是会增加使用内存和时间

如果上述都没有改善,可以剑走偏锋使用其他的组装策略。

 

1.  生成Bowtie2+SPAdes的组装sh脚本

# 生成运行脚本

make_batch_for_iteratively_mapping_assembling.py -1 Unknown_CG553-001R0007_good_1.fq.gz -2 Unknown_CG553-001R0007_good_2.fq.gz -s Reference_07.fasta -R 10 -k 21,45,65,85,105 -o Unknown_CG553-001R0007_make_batch

# 运行脚本

bash Unknown_CG553-001R0007_make_batch.sh

 

2. 使用 join_spades_fastg_by_blast.py 在assembly_graph.fastg.extend-*.fastg 文件 contigs 之间插入间隙,然后使用 get_organelle_from_assembly.py 从 Graph A’ 中提取包含间隙的“完整”质粒体基因组。

# 插入间隙

join_spades_fastg_by_blast.py -g extended_K105.assembly_graph.fastg.extend-fungus_mt.fastg -f ../Reference_07.fasta

# 组装

get_organelle_from_assembly.py -g ./extended_K105.assembly_graph.fastg.extend-fungus_mt.fastg.Ncontigs_added.fastg -F fungus_mt -o output –min-depth 10

 

《Getorganelle 组装质体基因组》有3条评论

发表评论