理想的测序技术是对原始的DNA模板进行直接、准确测序且不受读长的限制。
早在20世纪80年代,研究人员就开始在为实现这个目标而努力。虽然其中很多尝试都失败了,但是单分子实时测序技术和纳米孔测序技术最终实现了长读长、单分子测序,再次颠覆了测序领域。
以不经扩增的单分子测序和长读长为标志的测序技术称为第三代测序技术。
这些技术一次可读取长达数万碱基的片段,大大降低了拼接难度,更重要的是大大减少了过去无法定位的漏洞。
但目前的第三代测序技术因高错率仍未找到很好的解决方法,离临床实际应用仍有相当长的距离。
Pacific Biosciences SMRT 测序技术
SMRT测序技术由Webb和Craighead提出,Korlach、Turner和Pacific Biosciences(PacBio)将其进一步发展,并于2009年作为PacBio测序平台推出。
SMRT 测序技术,是基于纳米小孔的单分子读取技术,无需扩增即可快速完成序列读取。
SMRT 测序技术使用了一个特制的流动单元(SMRT cell),其中包含了成千上万底部透明的测序微孔(picolitre wells)——零模波导 (zero-mode waveguide, ZMW)孔,这是 SMRT技术的关键点之一。
它可以将反应信号从周围游离的 dNTP 的强大荧光背最中区别出来。其基本原理也是边合成边测序,与 Illumina 的测序原理大致一样。
测序流程:
1 将样本中的DNA或RNA分子提取后,构建如下的哑铃状分子结构:
将样本中所有的DNA片段都构建哑铃状分子结构,组成的集合就叫文库(SMRTbell Library),随后,它们会被放到测序芯片中。
2 以 RSII 测序平台为例,测序仪芯片(SMRT Cell)长这样:
上面整齐排列着15万个直径为70纳米的测序微孔(Zero-Model Waveguides,ZMWs)。
3 构建测序复合物:聚合酶,测序模板,测序引物。
4 将复合物撒入测序小孔内:
5 由于聚合酶加了生物素,在芯片玻璃底板有链酶亲和素。利用生物素和链酶亲和素的亲和力,包含聚合酶的测序复合物会被固定在玻璃底板。
6 在芯片溶液中含有许多游离dNTP,所谓游离dNTP就是随机飘在溶液中的dNTP。A、T、G、C四种碱基的dNTP,在磷酸基团上分别带有四种对应颜色的荧光基团。
7 在合成时,游离的dNTP被固定在底板上的酶捕获,激光会从玻璃板底部发出。
由于测序小孔的直径很小,而激光的穿透能力会逐渐衰减,只能在小孔中传输很短的距离,所以只有当dNTP足够靠近底部,荧光基团才会被激光照到,发出荧光。
当然,其他的游离dNTP,虽然也有可能飘到小孔底部被激发光照到,但这种情况极少。因此每次只会测取一个碱基。
在一个碱基合成结束后,带有荧光基团的磷酸基团会从dNTP上掉落,发生猝灭,不影响其他碱基的信号检测。
8 在发生测序的小孔有各自的DNA片段和测序复合物,同一时间发出不同颜色的激发光,机器会检测到如下的光信号,实际同时会得到多达几万个光点。
9 重复上述步骤,经过计算机分析光谱,最终我们拿到样本的测序文件。SMRT测序过程中,每秒读取约10个碱基,通量可达7GB/一天。
有意思的是,利用SMRT测序技术在测序过程中,可以直接测到碱基被修饰的状态。
例如当聚合酶遇到碱基上带有甲基化的碱基,合成速度会明显变慢,而且光谱也会发生改变。因此,SMRT测序技术可以检测到碱基的甲基化修饰情况。
尽管SMRT测序技术的测序速度很快,但其由于是单分子测序,反应中产生的每个错误都会被忠实地记录下来,难以分辨,测序准确率仅为85%。
好在碱基读取错误是随机的,如果重新读一遍同样位置的碱基,不一定会发生同样的错误。
如果对同一个序列,多测几遍,那么这些读错的碱基就能矫正过来。但相较于第二代测序技术99.5%以上的准确率,这确实其最大的短板。
Oxford Nanopore Technologies Nanopore测序技术
Nanopore测序概念于20世纪80年代被首次提出。
它基于物理电学,利用单链DNA分子通过纳米孔时对局部电流的改变来完成碱基序列的测定。
2005年Bayley成立了Oxford Nanopore Technologies(ONT)公司,2014年,第一个消费级别的纳米孔测序仪的原机——MinION在ONT诞生,一经推出就引起科学界的极大关注,并被认为是最有前景的单分子测序仪。
测序流程:
- DNA双链解螺旋,解开成为单链DNA。
- 同时DNA解旋酶也作为马达蛋白促使DNA单链分子通过一个以α-溶血素来构建的生物纳米孔,孔道内表面覆盖有一种合成的环糊精作为转换器。
- DNA单链停留在孔道中,与孔内的环糊精短暂地相互作用,影响了流过纳米孔原本的电流,带来了电流变化。而不同的碱基带来的电流变化不同,例如A与T的电信号大小很接近,但T在环糊精停留的时间是其他核苷酸的2~3倍,因此每个碱基都因其产生电流干扰振幅是特有的而被区分开来。
- 根据电流变化的频谱,应用模式识别算法得到碱基序列。
主要特点:
1 、超长读长:在纳米孔测序中,读长长度不受限于测序设备,可以通过所使用的文库制备实验方案来控制片段长度。目前DNA片段长度最高记录为900kb。
2、读取速度快:MinION流动单元每秒可读取500bp。
3 、直接测序:纳米孔技术基于电子学原理,允许直接测序原始DNA和RNA。
不需要通过DNA拷贝、进行链合成,节省了时间和成本。由于纳米孔技术支持无需PCR的直接测序,也就没有了扩增偏好性,并且文库制备工作流程也更简单。
4、通量高:PromethION包含48个独立流动单元,最多可以在2天内输出2~4TB的数据量
5、便携:ONT MinION只有USB设备大小,又称为掌上测序仪,在电脑上即可对数据进行读取。
但同时由于该技术拥有超过 1000 种独立的信号,其错误率也较高(主要表现为对 Indel 的检测)。
由于修饰的碱基会改变原有设定的电压变化,所以碱基的修饰对 ONT 而言同样是一大挑战。
补充知识:什么是Indel
在基因组测序中,"Indel"(插入/缺失)是指基因组中发生的插入或缺失碱基的变异。
插入指的是在DNA序列中添加一个或多个额外的碱基,而缺失则是指从DNA序列中删除一个或多个碱基。
这些插入或缺失的碱基可以导致基因组中的序列长度发生变化,进而影响基因的功能。
Indel是基因组中最常见的变异类型之一,与单个碱基的替换(称为SNP)相比,它通常会对基因功能产生更大的影响。
Indel可以导致读框架移位,从而改变蛋白质编码序列的翻译,或者导致非编码区域的功能变化。
因此,对于基因组测序和遗传研究来说,检测和分析Indel变异非常重要,可以帮助我们理解基因组的变异和其与疾病之间的关联。