Getorganelle 组装质体基因组
1. 前言
Getorganelle可以用来组装所有的质体基因组,但是比较常用是用来组装植物的叶绿体基因组。但是本人剑走偏锋决定用它来组装真菌的线粒体基因组。
2. 软件下载
mamba create -n Getorganelle
mamba activate Getorganelle
mamba install bioconda::getorganelle
3. 下载需要的数据库
get_organelle_config.py -a fungus_mt
4. 运行
# 基于reads进行组装
get_organelle_from_reads.py -1 Unknown_CG553-001R0007_good_1.fq.gz -2 Unknown_CG553-001R0007_good_2.fq.gz -R 20 -k 21,45,65,85,105 -F fungus_mt -o Unknown_CG553-001R0007_s -t 50
# -F 指定组装的基因组类型,我指定的是真菌的线粒体基因组,根据自己的需求更改
# 输出结果
在指定的输出文件夹中会有组装的结果,会出现三种情况
1. 完全成环 *complete*.fasta
2. 接近成环 *nearly-complete*.fasta
3. 没有成环 *scaffolds*.fasta
一般来说,只有完全成环才是可以用的,如果组装不成欢,可以通过以下几个方法重新组装可能会有改善。
(1)减小-W 参数的值
(2)-s 参数添加参考基因组
(3)增加 -R 参数,增加运行轮数
(4)添加–max-reads inf 和 –reduce-reads-for-coverage,这两个参数就是增加组装使用的reads,但是会增加使用内存和时间
如果上述都没有改善,可以剑走偏锋使用其他的组装策略。
1. 生成Bowtie2+SPAdes的组装sh脚本
# 生成运行脚本
make_batch_for_iteratively_mapping_assembling.py -1 Unknown_CG553-001R0007_good_1.fq.gz -2 Unknown_CG553-001R0007_good_2.fq.gz -s Reference_07.fasta -R 10 -k 21,45,65,85,105 -o Unknown_CG553-001R0007_make_batch
# 运行脚本
bash Unknown_CG553-001R0007_make_batch.sh
2. 使用 join_spades_fastg_by_blast.py 在assembly_graph.fastg.extend-*.fastg 文件 contigs 之间插入间隙,然后使用 get_organelle_from_assembly.py 从 Graph A’ 中提取包含间隙的“完整”质粒体基因组。
# 插入间隙
join_spades_fastg_by_blast.py -g extended_K105.assembly_graph.fastg.extend-fungus_mt.fastg -f ../Reference_07.fasta
# 组装
get_organelle_from_assembly.py -g ./extended_K105.assembly_graph.fastg.extend-fungus_mt.fastg.Ncontigs_added.fastg -F fungus_mt -o output –min-depth 10
你好,请问一下在linux上make_batch_for_iteratively_mapping_assembling.py怎么正确安装呢
安装Getorganelle的时候就安装了,直接调用就行
但是我输入那个代码显示command not found,是需要把Getorganelle重新安装一下吗