RNA-seq相比较基因芯片,价格虽然昂贵一些,精度和灵敏度更高。同时,在测序深度足够时,也可以检测mRNA选择性剪切类型。

1. 样品制备

2. 测序

Illumina双端测序动画图示

3. 分析流程

RNA-seq主要分析流程

Workflow of RNA-seq data analysis
1
2
3
4
5
6
7
8
原始数据质量评估 -->
数据清洗(去除接头和低质量read) -->
清洗数据质量评估 -->
map测序结果至基因组(转录组) -->
map数据质量评估 -->
差异表达基因/选择性剪切/新基因/融合基因选择 -->
GO和pathway分析 -->
共表达网络分析

3.1 序列清洗

序列清洗主要是去除测序结果中的adapter或通用引物等。

以下使用Illumina HiSeq2000平台,对一个人类样本的RNA测序。统计各种序列清洗方法和选择后的reads数目。原始数据两端测序reads分别为54,492,228和54,492,228。


Method #Trimmed #Mapped* #Filtered
r50-notrim 108,984,456 109,278,388 79,143,942
r50-nomixed-notrim 108,984,456 103,548,800 79,143,942
r50-nomixed-trimmomatic-min20 104,164,622 116,315,394 80,337,256
r50-nomixed-trimmomatic-min36 101,548,172 110,778,108 79,248,896
r50-nomixed-trimmomatic-min50 98,525,312 106,659,988 77,779,424
r50-nomixed-galore-min20 107,097,862 114,943,386 83,039,928
r100-nomixed-galore-min20 107,097,862 114,944,672 87,899,316
r165sd45-nomixed-galore-min20 107,097,862 114,201,366 90,750,208
r165sd45G-nomixed-galore-min20 107,097,862 109,901,742 93,477,122
r165sd45-nomixed-galore-min50 104,869,208 109,258,544 89,329,672

*:使用TopHat2把序列mapped到hs19基因组。TopHat2默认设置为,如果一个reads能mapped到多个位点,则都会报道。因此数目可能比原始数据多。


4. 分析过程注意事项

  1. 参考转录组注释文件(GFF/GTF)的染色体编号,与基因组信息一致。比如都用chr1,或者都用1标识1号染色体。可能出现问题地方:
  • TopHat-G/--GTF参数。

  • MISO程序pe_utils的传入转录组注释文件。

5. 基本概念

  • Read:是组成测序的结果的基本单位。

  • Count:在某次测序中,对于某个指标(比如某个基因),得到的reads数的总和。

  • RPKM(Reads Per Kilobase per Million)和FPKM(Fragments Per Kilobase per Million):

首先需要解释FPKM和RPKM的原理是相似的,区别在于FPKM对应的是DNA片段,比如在一个Illumina的pair-end(双尾)RNA-seq中,一对(两个)reads对应是一个DNA片段。有了FPKM(RPKM)概念,我们就能比较:同一个样本中基因A和基因B的相对表达量;或者不同样本中,同一个基因的相对表达量。

具体的原因是:引入“每一千碱基(per kilobase)”的原因在于,不同的RNA可能有不同长度,长度越长,对应的reads就越多。当每个RNA都除以自身长度(以1000碱基为单位)时,就可以比较同一个样本中不同基因的相对表达量了。相似地,引入“每一百万reads”的原因是,不同的样本可能测序的深度不一样,深度越深,当然对应的reads就越多了。如果结果除以各自库的数量(以一百万reads为单位),那么我们就能很好地衡量两个不同样本中同一个基因的相对表达量。

  • Alignment:确定测得的reads在基因组上的位置的过程。

  • Mapping:确定aligned reads对应的转录本。

  • Pair end (PE)Mate-Pair (MP)

两种双端测序的方法,主要区别在样品库制备和测序上。比如PE制备的库是adapter在目标序列两端,而MP库中adapter在目标序列中间。因此,在数据分析时,MP类型测序必须注意剔除adapter。具体参考论坛讨论Difference Between Paired-End and Mate-Pair Reads

在序列软件软件中,有时也称呼一对测序reads(对同一个目标片段分别测得的正义链和反义链),它们互为mate,分别存在两个对应的测序结果文件中。

  • Adapter(接头)Barcode(标签)Insert(插入片段)

adapter是一段短的序列已知的核酸链,用于链接序列未知的目标测序片段。

barcode,也称为index,是一段很短的寡居核酸链,用于在多个样品混合测序时,标记不同的样品。 insert是用于测序的目标片段,因为是包括在两个adapter之间,所以被称为“插入”片段。

一个常见测序片段类似与adapter--barcode--insert--adapter。测序开始时前几个碱基无法测得,第一个adapter在数据输出时被去除;由于测序仪读长限制,第二个adapter通常无法测得。所以,经常得到类似 barcode--部分insert的read。最后,把barcode去除,只保留测度insert的片段,这个操作的术语是demultiplexing。

需要注意的是,Illumina TruSeq样品库制备方法中,barcode是在adapter中部,而且是与insert分开测序。而Illumina Nextera Mate Pair样品库制备中,adapter在目标序列中部。

  • Concordant PairsDiscordant Pairs:根据Bowtie2的解释,concordant pairs表示一对reads在alignment时,既方向匹配又有合适距离(Bowtie2中是200bp~500bp)。如果上述方向和距离,任意一个条件不满足,则称为discordant pairs。

  • chrN_randomchrUn:基因组文件中通常含有类似chr9_gl000198_randomchrUn_gl000211的基因组。根据UCSC解释,chrN_random包括基因组已知但具体位置未知序列,或者位置已知但具体内容未完成序列。ChrUn中包括一些具体位置未知的序列。

  • chrN_xxx_hap1:转录组注释文件中会出现类似chr6_apd_hap1chr6_dbb_hap3的基因组注释。根据UCSC解释这些基因组是单倍型(haplotype)基因组

参考网址

更新记录

2017年9月16日

Comments