小马的生信笔记

基于Trinity进行无参转录组的组装

引言

随着 RNA-seq 技术的普及,转录组测序已成为解析基因表达与功能基因组成分的核心手段。对于缺乏高质量参考基因组的物种,无参考转录组组装(de novo transcriptome assembly)通过对 RNA-seq reads 进行图结构重建,直接恢复转录本序列,从而获得完整的转录本集合。这一策略广泛应用于非模式物种、多倍体物种及基因组资源匮乏的类群,是开展分子研究的重要基础在比较基因组层面,转录组数据能够提供高质量的编码序列,用于同源基因鉴定、基因家族扩张与收缩分析,以及跨物种功能注释比对。即便已有基因组序列,转录组仍可用于优化注释、补充低表达或组织特异基因,提高比较分析的准确性。在系统发育研究中,转录组组装为筛选直系同源基因和构建大规模核基因数据矩阵提供关键资源。相较于传统少数分子标记,基于转录组的多基因系统树具有更高的分辨率与统计支持度,同时可结合选择压力分析与表达分化研究,揭示适应性演化机制。

Trinity

在众多 de novo 转录组组装工具中,Trinity 是应用最广泛、引用率最高的算法框架之一。其核心优势在于将复杂的转录本重建问题拆解为三个相互衔接但功能独立的模块:Inchworm、Chrysalis 和 Butterfly,分别负责初始 contig 构建、图结构划分与最终转录本解析。

安装

				
					mamba install bioconda::trinity
				
			

组装

在组装之前要完成测序数据的指控

				
					fastp -i Unknown_CS440-004H0001_good_1.fq.gz  \
-I Unknown_CS440-004H0001_good_2.fq.gz \
-o Clean_Unknown_CS440-004H0001_good_1.fq.gz \
-O Clean_Unknown_CS440-004H0001_good_2.fq.gz
-t 8 \
-f 15 \
-5
				
			

随后进行完全无参的de novo 转录组组装

				
					Trinity --seqType fq --max_memory 300G \
--left Ra_57_Pelophylax_nigromaculatus_1.fastq.gz \
--right Ra_57_Pelophylax_nigromaculatus_2.fastq.gz \
--CPU 20  --output Ra_57_Pelophylax_nigromaculatus_trinity

# --seqType 数据的类型
# --max_memory 最大内存
# --left 双端测序数据
# --right 双端测序数据
# --CPU 20 运行的线程数
# --output 输出文件夹
				
			

Trinity 运行完成后,最核心的输出文件为 Trinity.fasta,即组装得到的全部转录本序列集合。然而,需要明确的是,这一步并不意味着分析流程的结束。由于转录组组装本身会保留可变剪接异构体(isoforms)以及高度相似的冗余序列,原始组装结果通常存在一定程度的冗余与转录本重复。如果直接用于下游分析(如功能注释、同源基因筛选或系统发育构建),可能会引入偏差或放大统计噪音。

因此,在正式开展后续分析之前,通常需要进行去冗余(redundancy removal)处理。围绕这一环节,学界存在不同策略,主要可归纳为三类:
1)直接对组装得到的转录本序列进行聚类去冗余,并在每个 cluster 中提取最长转录本作为代表序列;
2)对 TransDecoder 预测得到的 CDS 或蛋白序列进行相似性聚类去冗余;
3)在 TransDecoder 预测结果中,仅保留每个基因对应的最长 CDS 或蛋白序列。

总体而言,这三种策略在宏观统计结果(如基因数目、BUSCO 完整度或系统发育拓扑结构)上差异通常较小,对整体研究结论影响有限。因此,在方法选择上更强调流程的一致性与可重复性,而非绝对优劣。

本文采用第一种策略,即直接基于组装得到的转录本序列进行相似性聚类去冗余,并提取每个聚类中最长的转录本作为代表序列,以构建后续分析所需的非冗余转录本数据集。

使用Trinity自带的脚本,提取最长转录本

				
					
~/miniforge3/envs/Trinity/opt/trinity-2.15.2/util/misc/get_longest_isoform_seq_per_trinity_gene.pl Ra_59_Pelophylax_nigromaculatus_trinity.Trinity.fasta > Long_Ra_59_Pelophylax_nigromaculatus_trinity.Trinity.fasta
				
			

使用cd-hit去冗余

				
					cd-hit-est \
-i Long_Ra_59_Pelophylax_nigromaculatus_trinity.Trinity.fasta \
-o cd_Long_Ra_59_Pelophylax_nigromaculatus_trinity.Trinity.fasta -T 20 -M 0 -c 0.99
				
			

Transdecoder预测ORF、CDS和PEP

				
					TransDecoder.LongOrfs -t Prunus_mongolica_trinity.Trinity.fasta
TransDecoder.Predict -t Prunus_mongolica_trinity.Trinity.fasta
				
			

预测到的CDS和PEP就可以用于系统发育、比较基因组和比较转录组的下游分析了。

发表评论