quarTeT基因组Gap填充、检测端粒和重复序列

mamba create -n quarTeTdependencies --channel conda-forge --channel bioconda python=3.11.4 minimap2=2.26 mummer4=4.0.0rc1 trf=4.09.1 cd-hit=4.8.1 blast=2.14.0 tidk=0.2.31 r=4.3 r-rideogram=0.2.2 r-ggplot2=3.4.4 gnuplot=5.4 unimap=0.1 git clone https://github.com/aaranyue/quarTeT

### 填充基因组组装中的空隙（gap）。 python ~/Software/quarTeT/quartet.py GapFiller -g ../../../../hap_n_12.hic.p_utg.fa -d groups.review.asm.fasta -t 30 # -g ../../../../hap_n_12.hic.p_utg.fa: 指定包含空隙（通常表示为 'N'）的基因组草图文件（scaffold/contig）。 # -d groups.review.asm.fasta: 指定用于填充空隙的序列文件，这通常是 unplaced contigs 或者其他可以用来填补缺口的序列集合。 # -t 30: 指定用于此任务的线程数，以加速计算过程。 ### 识别基因组序列中的端粒区域。 python ~/Software/quarTeT/quartet.py TeloExplorer -i groups.review.asm.chr.genome.fasta -c plant # -i groups.review.asm.chr.genome.fasta: 指定输入的基因组序列文件，通常是染色体级别的组装结果。 # -c plant: 指定要搜索的端粒重复序列的类型。这里 'plant' 表示使用植物典型的端粒重复序列（TTTAGGG）进行搜索。 ### 预测基因组中的着丝粒区域。 python ~/Software/quarTeT/quartet.py CentroMiner -i quarTeT.genome.filled.fasta --TE quarTeT.genome.filled.fasta.gff --gene ./Final_result/Prunus_pedunculata.gff3 -t 40 -p centromere_out # -i quarTeT.genome.filled.fasta: 指定输入的基因组序列文件，这里使用的是经过 GapFiller 填充后的版本。 # --TE quarTeT.genome.filled.fasta.gff: 指定转座元件（Transposable Element, TE）的注释文件，格式为 GFF。着丝粒区域通常富含特定的转座子，此信息有助于预测，可以是EDTA或Repetmasker输出的gff文件。 # --gene ./Final_result/Prunus_pedunculata.gff3: 指定基因注释文件，格式为 GFF3。着丝粒区域通常是基因稀疏区，此信息也作为预测的依据。 # -t 40: 指定使用的线程数。 # -p centromere_out: 指定输出文件的前缀或输出目录的名称。

1. 前言

2. 软件下载

3. 软件使用

4. 输出结果

发表评论取消回复

基因组专栏

Swave：发表于 Nature Genetics 的复杂结构变异（SV）检测利器

EviAnno：基于证据的基因架构注释

记录一次补Gap的流程

SYRI：基于基因组的结构变异检测最优选

mm2-plus：加速版Minimap2，基因组比对速度大幅提升

基于已发表的基因组注释结果对Helixer进行微调