小马的生信笔记

1. 前言

这是一篇迟来的博客,很久之前就用过这个软件,一直没有记录,今天来记录一下。

2. 软件下载

				
					mamba create -n quarTeTdependencies --channel conda-forge --channel bioconda python=3.11.4 minimap2=2.26 mummer4=4.0.0rc1 trf=4.09.1 cd-hit=4.8.1 blast=2.14.0 tidk=0.2.31 r=4.3 r-rideogram=0.2.2 r-ggplot2=3.4.4 gnuplot=5.4 unimap=0.1
git clone https://github.com/aaranyue/quarTeT
				
			

3. 软件使用

				
					### 填充基因组组装中的空隙(gap)。
python ~/Software/quarTeT/quartet.py GapFiller -g ../../../../hap_n_12.hic.p_utg.fa -d groups.review.asm.fasta -t 30

# -g ../../../../hap_n_12.hic.p_utg.fa: 指定包含空隙(通常表示为 'N')的基因组草图文件(scaffold/contig)。
# -d groups.review.asm.fasta: 指定用于填充空隙的序列文件,这通常是 unplaced contigs 或者其他可以用来填补缺口的序列集合。
# -t 30: 指定用于此任务的线程数,以加速计算过程。

### 识别基因组序列中的端粒区域。
python ~/Software/quarTeT/quartet.py TeloExplorer -i groups.review.asm.chr.genome.fasta -c plant

# -i groups.review.asm.chr.genome.fasta: 指定输入的基因组序列文件,通常是染色体级别的组装结果。
# -c plant: 指定要搜索的端粒重复序列的类型。这里 'plant' 表示使用植物典型的端粒重复序列(TTTAGGG)进行搜索。

### 预测基因组中的着丝粒区域。
python ~/Software/quarTeT/quartet.py CentroMiner -i quarTeT.genome.filled.fasta --TE quarTeT.genome.filled.fasta.gff --gene ./Final_result/Prunus_pedunculata.gff3 -t 40 -p centromere_out

# -i quarTeT.genome.filled.fasta: 指定输入的基因组序列文件,这里使用的是经过 GapFiller 填充后的版本。
# --TE quarTeT.genome.filled.fasta.gff: 指定转座元件(Transposable Element, TE)的注释文件,格式为 GFF。着丝粒区域通常富含特定的转座子,此信息有助于预测,可以是EDTA或Repetmasker输出的gff文件。
# --gene ./Final_result/Prunus_pedunculata.gff3: 指定基因注释文件,格式为 GFF3。着丝粒区域通常是基因稀疏区,此信息也作为预测的依据。
# -t 40: 指定使用的线程数。
# -p centromere_out: 指定输出文件的前缀或输出目录的名称。
				
			

4. 输出结果

quarTeT.genome.filled.fasta :补gap后的基因组

quarTeT.genome.filled.detail:补gap的信息统计文件

quarTeT.genome.filled.png:核型图

quarTeT.telo.info:预测端粒的信息统计文件

quarTeT.telo.png:核型图

发表评论

基因组专栏