北京大学黄岩谊课题组在DNA测序方法的研究上取得重要突破
ACTG4种碱基,抽象成图中4个不同颜色不同结构的镂空立方体,可以通过3种正交的方式解构为两两组合。在ECC测序中,每个碱基均通过3次“投影”进行了测量,再通过3个投影重构出原来的序列。
4种碱基的抽象结构
北京大学生物动态光学成像中心/北京未来基因诊断高精尖创新中心/工学院/北大-清华生命科学联合中心黄岩谊教授课题组日前在DNA测序方法的研究上取得重要突破。该团队在此前谢晓亮教授首创的荧光发生测序技术基础上发展了一种全新概念的测序方法——纠错编码(简称ECC)测序法。ECC测序法采取一种独特的边合成边测序(SBS)策略,利用多轮测序过程中产生的简并序列间的信息冗余,大幅度增加了测序精度。该进展于2017年11月6日以“Highly accurate fluorogenic DNA sequencing with information theory-based error correction”为题在线发表于《自然·生物技术》(Nature Biotechnology)期刊上。
ECC测序法的化学反应采用了荧光发生测序技术,该技术由谢晓亮课题组于2011年首次报道【Nature Methods(2011)8, 575.】,原理巧妙之处在于在DNA互补链合成时可以释放同所延伸核苷酸数目相等的荧光分子,利用这一反应可以实现低错误率的SBS。黄岩谊课题组在此基础上,过去几年对该方法进行了拓展【ChemBioChem(2015)16, 1153.】,为本次技术突破奠定了基础。该团队首先从化学原理上对荧光发生测序技术中的荧光标记分子进行了结构优化,设计合成了具有不同波长、更优性能的测序底物分子,并对聚合酶参与的各阶段反应动力学进行了细致的测量和建模;在深入理解荧光发生测序化学反应速度、完成度、副反应等关键技术细节的基础上,完善了ECC测序原理样机的搭建,不断迭代优化测序反应条件和信号采集流程;从数据入手,构建了精确的测序信号失相模型并提出了次级延伸理论,并据此开发出算法软件对测序反应失相过程做出了合理简化使其具备了实用性。
在ECC测序法中,序列信息的冗余来自黄岩谊课题组新发展的“对偶碱基荧光发生”SBS测序流程,该流程通过对测序试剂按对偶碱基分为两两匹配的3组,并对待测DNA序列进行3轮独立测序,继而产生3条互相正交的简并序列编码。这3条编码可互为校验,后续不但能够通过解码推导出真实碱基序列信息,而且具备对单轮测序错误位点的校正能力。ECC编码和解码策略已被广泛应用在信息通讯和存储等其他领域中,并被证实可以有效检测和纠正数据传输或存储时发生的错误。此次黄岩谊团队在测序技术中首次引入冗余编码概念,通过和低错误率的荧光发生测序技术巧妙结合,在实验室搭建的原理样机上获得了单端测序超过200碱基读长无错误的实验结果。
该论文作者包括北京大学博士后陈子天,博士研究生周文雄、乔朔、康力,段海峰副研究员,谢晓亮教授和黄岩谊教授;黄岩谊是这篇文章的通讯作者。该工作先后得到了北京市科委、国家科技部“863计划”、国家自然科学基金、北大-清华生命科学联合中心以及北京未来基因诊断高精尖创新中心的资助。