问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

测序数据不好?是不是建库出了问题?!——从测序数据看文库构建

创作时间:
作者:
@小白创作中心

测序数据不好?是不是建库出了问题?!——从测序数据看文库构建

引用
1
来源
1.
https://www.yeasen.com/news/detail/183

高通量测序中的文库构建是测序过程中的关键步骤,其质量直接影响最终测序数据的质量。本文将详细介绍文库质控的方法,包括文库大小、浓度、转化率、复杂度、均一性、准确性和覆盖度等指标,并探讨文库构建各步骤对测序结果的影响。

高通量测序中的文库构建指的是在DNA两端连接特定的接头从而使其符合测序平台要求的过程,在高通量测序过程中,文库质量直接影响最终测序数据的质量,打个比方,如果文库上机测序的浓度很低,样本在FlowCell上扩增所形成的DNA样本簇就会很少,测序数据量也将减少,这就可能导致测序失败,所以我们说文库的质量控制和质量评估也是NGS中的关键步骤。

文库如何质控?

评估文库质量的方法有哪些?

文库质控:

文库在上机之前都会进行质量检测,质量检测合格的文库才会上机测序。文库上机之前的文库质控主要包括文库片段大小和文库浓度的质控,具体质控标准和实验设计见往期推送:文库质检方案的合理设计--文库分布、文库浓度、文库质量。

文库评估:

文库评估方法除了文库大小和浓度之外,还包括文库转化率、文库复杂度、均一性、准确性和覆盖度等。

1)文库转化率:是评估文库质量的重要指标,它指的是文库中两端都连上接头的目的片段占总片段数的比值,也代表测得产量与理论最高产量之间的比值,这里的理论最高产量考虑了PCR的扩增效率问题及纯化产生的损失。计算方法如下:

理论最高产量=输入量×(1+PCR扩增效率)(PCR循环数)×(纯化回收率)(clean up数)

为什么说文库转化率是重要指标呢?这是因为只有双端都连接上接头的目的片段才能在FlowCell上面通过桥式扩增形成簇,最终完成测序过程,而不是双端都连上接头的目的片段最终都不能完成测序过程,视为无效片段,如果这样的片段过多直接影响最终输出数据的过少,甚至可能直接导致测序的失败。


图1.双端带接头的DNA片段在Flowcell上扩增图

2)文库复杂度:指的是文库中DNA序列的复杂程度,一定的文库复杂度对后期测序数据的分析尤为重要,复杂度高的文库测序得到的数据重复读数少,可以带来更多有意义的信息,反之,低复杂度的文库在信号读取时往往产生簇信号混杂,易产生低质量的测序数据。

文库复杂度与Input样本质量、文库的转化率、文库扩增时循环数有关。当文库的转化率越高时,能从样品种捕获更多的特异分子,文库复杂度就越高;当输入样本量越低或文库扩增循环数越多时,文库中不能带来有意义信息的重复读数就会增多,则文库的复杂度越低。

Sample Input
Library Prep
Uniquely Mapped
Duplication Rate
Transcripts Detected
Genes Detected
4 μg
A*
69%
31%
111.370
20.547
B*
76%
24%
112.136
21.016
500 μg
A*
64%
36%
109.810
20.134
B*
71%
29%
110.690
20.644

表1.测序数据关键参数比较

3)均一性:指的是读取数据在基因组或目标区域的分布均一程度。其生信分析图如图2所示,一般认为覆盖越均匀,达到特定深度所需的测序数据就越少,覆盖均一性的偏向通常是在文库制备和文库扩增步骤中引入的,也就是说,覆盖均一性很多时候取决于GC含量。


图2.测序数据均一性

4)准确性:
NGS文库制备的准确性越高,你对变异报告的信任程度就越高。核苷酸错误通常在PCR扩增以及测序过程中引入。测序错误通常低于1%。通过使用高保真PCR试剂,可尽量减少文库扩增的错误。NGS对照样品也有助于评估NGS流程的准确性。

图3.PCR扩增存在一定的错配率

5)测序深度和覆盖度:
假设对长1000 bp的目标区域进行捕获测序,每个read长10 bp,总共得到3000个reads,把所有的reads对比到目标区域后,1000 bp的目标区域中有990 bp的位置至少有1个read覆盖到,换言之剩余的10bp没有1个read覆盖。
则此时:
测序深度(depth)300010/1000=30 也就是说测序深度为30
覆盖度(coverage)990/1000100%=99% 这次测序覆盖度为99%
同理:
假设对长100bp的目标区域进行捕获测序,每个read长5bp,总共得到200个reads,把所有的reads对比到目标区域后,100bp的目标区域中有98bp的位置至少有1个read覆盖到,换言之剩余的2bp没有1个read覆盖。
深度(depth)200
5/1000=10 也就是说测序深度为 10*
覆盖度(coverage)98/100*100%=98% 这次测序覆盖度为98%

文库构建中的哪些步骤会直接影响测序质量?

NGS的最终目的就是得到优秀测序数据助力于下游科学研究或实际应用,其中文库构建是测序数据的重要影响因素,文库构建一般包括以下几类步骤(以DNA为例):样本片段化、接头连接、分选/纯化、文库扩增。文库对测序数据的影响,具体到文库构建的每个步骤,参考表2。

步骤
评估指标
对测序结果的影响
样本片段化
打断随机性
文库质量;测序数据的均一性和覆盖度
片段大小是否集中
文库浓度;测序数据覆盖度
接头连接
接头连接效率
文库转化率;文库复杂度;均一性;准确性和覆盖度
分选/纯化
片段大小的一致性
片段大小与测序仪大小不匹配将无法上机测序
回收效率
文库浓度;测序数据覆盖度
文库扩增
扩增偏好性
文库复杂度;均一性
扩增效率
文库浓度;文库复杂度

表2.建库步骤对测序结果的影响

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号