YYDS的遗传病检测新技术——三代测序
2024-11-29 14:40:33医学遗传与产前诊断科
近些年的医疗题材影视作品也是与时俱进,我们时不时目睹到这样的场景:当面对某种难以确诊的疑难杂症时,医生会建议患者接受“测序”检测手段,以期揭开病因之谜。那么,究竟何谓“测序”?一代测序与二代测序是怎样的技术?还有本文即将深入探讨的三代测序,它又有何独特之处呢?今天就让我们就来聊一聊。
一、什么是基因与测序?
说起基因,在现代社会中人们对它已经不陌生了。基因是DNA上一段能够编码特定蛋白质或具有特定功能的遗传信息单位,它存在于染色体上。通过基因能控制生物体的生长、发育、代谢等过程。基因由特定顺序的核苷酸组成,每个核苷酸包含一个碱基。碱基有四种,分别是A(腺嘌呤)、T(胸腺嘧啶)、G(鸟嘌呤)、C(胞嘧啶)。这四种碱基排列顺序决定了生物遗传信息,从而影响生物体的遗传特征和功能。
当碱基的排列顺序出现错误,即发生基因突变时,将会影响遗传信息的准确传递和表达,这种突变可能是点突变、插入、缺失或其他类型的结构变异,进而导致疾病的发生。测序是一种通过特定技术手段确定DNA碱基排列顺序的方法。在遗传病检测中,测序技术能够发现多种与遗传相关的疾病信息,如DNA序列中的单碱基变异(点突变)、小的插入或缺失,以及较大的结构变异。这些发现对于遗传病的诊断、携带者筛查、产前诊断、遗传咨询以及理解疾病机制、指导治疗和预后评估都具有重要意义。
(图片来源https://www.cdc.gov/advanced-molecular-detection/about/what-is-genomic-sequencing.html)
二、测序的读长、通量以及准确度
要了解“测序”这件事,首先要知道三个重要的参数——读长、通量以及准确度。读长指的是单次测序所得到的碱基序列长度,即一连串的ATTGCGA等,一般用bp表示长度。如果所测的序列长度高于读长,那么必须把序列分割成长度在读长以内短序列才能进行测序,最后再将结果连接起来。通量是指测序在单位时间内所能产生的数据量,是速度与数量的综合指标。通量越高,测序的速度越快,能同时处理的样本量越多。准确度是指测序结果与真实序列的一致程度,准确度越高测序结果越可靠。
想象一下,测序这件事就像用卷尺测量一条长长的公路,由于卷尺长度有限,我们得分段来测,测完再把各段结果“拼接”起来。在这里,“读长”就是卷尺的长度,决定我们每次能测多长的路段;“通量”就像是有多少把卷尺在同时工作,以及每把卷尺测量的速度有多快。高通量意味着不仅测量速度大大增加,并且能够同时测量多条公路;
读长,低通量
短读长,高通量
读长与通量需根据测序的目标进行选择。在人类基因组中,虽然大部分序列(约98%)是非编码蛋白质的,但其中50%以上为重复序列,这些区域由于高度的相似性和复杂性,成为了测序中的一大挑战,常被形象地称为人类基因组的‘暗物质’区。这些区域就像测量公路长度时遇到的蜿蜒曲折、崎岖不平的路段,使得测量工作变得困难。在处理这些复杂或重复序列时,长读长技术展现出了明显的优势。因为长读长技术能够跨越这些重复序列,提供更完整、更准确的序列信息,从而帮助我们更好地理解和解析这些‘暗物质’区的奥秘。
三、一至三代测序技术的优缺点
目前成熟的测序技术已经发展到了第三代,那么三种测序技术的特点各是什么呢?
一代测序: 又称Sanger测序或双脱氧链终止法测序,是一种基于DNA聚合酶合成原理的测序技术。一代测序的优点就是读长较长(1000bp左右),准确性高(准确率99.99%),是测序的“金标准”。缺点就是通量较低、成本较高,不适合大规模测序。著名的人类基因组计划(Human Genome Project, HGP)就是采用一代测序技术完成。当前在遗传病检测中,一代测序主要用于明确致病位点以及对其他检测技术的结果进行验证。
二代测序:又称高通量测序(NGS),是一种能够同时读取成千上万个短DNA片段序列的测序技术。该技术的优点是通量高、检测成本低。其缺点是读长较短,无法准确测定重复区域的序列;同时,由于依赖PCR扩增,其对GC碱基含量较高的区域存在测序偏差。目前二代测序在遗传学诊断的应用非常多,包括无创产前筛查(无创DNA)、染色体拷贝数变异检测、单基因病的筛查和诊断等。
三代测序:又称单分子测序技术,是一种无需PCR扩增、直接对单个DNA分子进行测序的技术。目前主要包括单分子实时测序技术(SMRT)和纳米孔测序技术(Nanopore测序)。
单分子实时测序(SMRT)是第一个被广泛采用的长读长测序(Long-read sequencing, LRS)技术。通过SMRT测序产生的序列结果(通常称为reads)可达到约200 kb的。这使得LRS比短读长测序具有优势,可以准确和全面地识别复杂的遗传变异,包括大的结构变异、罕见的致病突变和其他结构变异。在其HiFi模式下,通过同一条分子的多拷贝并行CCS测序进一步校正,40x深度下,碱基准确度可以达到99.999%,同时,无需PCR扩增无GC偏向性以及直接进行甲基化检测都是该技术的优势。单分子实时测序(SMRT)虽颇具潜力,但其成本依然居高不下,同时缺乏完善的生物信息学分析工具,这成为了一个显著的不足之处。
纳米孔测序技术(Nanopore测序)拥有超长测序读长(>2Mb),检测速度极快(450bp/s),其便携式设备可进行现场和实时基因监测;能同时对DNA和RNA提供超长reads,使得很多生物学研究成为可能;同时,测序过程无需PCR扩增无GC偏好性,能直接进行甲基化检测,以对“表观遗传”进行分析都是该技术的优势。而其超长的读长,导致测序过程中错误率增加,对核酸材料需求量增高以及缺乏完善的生物信息学分析工具,成为了该技术一个显著的不足之处。
由于一到三代测序方法各有各的优缺点,因此针对不同的应用场景选择不同的方法,才能充分发挥各种技术的优势,提高测序的效率和准确性,同时降低成本。
四、三代测序在遗传病检测中的应用
三代测序技术正逐步在遗传病检测领域内大放异彩,其应用范围日益广泛。目前,三代测序技术的主要应用方向有:
1.基因组结构变异分析三代测序技术的超长读长以及无GC偏好能精确定位基因组结构变异的断裂点。而且,它一次能检测多种类型的变异,全面又均匀,这给像地中海贫血这样由复杂结构变异引起的遗传病提供了新的筛查和诊断方法。王珺等使用三代测序技术进行胚胎植入前遗传学检测(preimplantation genetic testing, PGT),他们对6对反复流产夫妇进行测序,准确获得了平衡易位断裂点,最终5对夫妇通过该技术获得了完全正常的胚胎。
2.串联重复序列分析在人类基因组中重复序列约占55%,这些序列数量丰富、分布广泛。其中由2~6个碱基组成的重复序列,叫做段串联重复序列(short tandem repeat, STR)又称微卫星DNA。一些STR的重复次数可随着世代交替的传递而增加导致疾病,这种累加突变效应称为“动态突变”。如脆性X综合征、脊髓小脑共济失调等疾病。在脆性X综合征疾病患者中,X染色体上有一个FMR1基因,这个基因中有一段重复序列(CGG)n。当重复次数大于某一范围时(n>200次),将会导致FMR1基因甲基化失活从而引发该病。对于该类疾病的检测,二代测序技术由于GC偏倚以及短读长的缺点,对较长重复序列的动态突变存在检测不准确或遗漏的可能。而三代测序由于长读长以及能进行甲基化检测,是识别“动态突变”的一种优越手段。
3、真假基因分析 在生物体进化过程中,形成了一系列与正常功能基因序列高度相似,但丧失了正常功能的假基因。在对一些存在真假基因高度同源的相关疾病进行检测时,由于假基因的干扰很容易造成漏诊。二代测序技术同样由于短读长及GC偏移等问题,无法分辨真假基因。因此,三代测序能有效避免假基因的干扰,准确检测出真基因的突变信息。如在对先天性肾上腺皮质增生症(CAH)进行诊断时,我们需要对导致21-羟化酶缺陷(21-OHD)的CYP21A2基因进行检测以明确致病原因。而该基因有一个高度同源的假基因CYP21A1P,在用二代测序技术进行分析时,无法区分测出测序短片段是来自真基因还是假基因。而超长读长的三代测序技术则能够区分真假基因,准确鉴定出点变异、插入、缺失、重复和大片段基因转换等异常类型。
4、单倍型分析单倍型是指同一染色体上共同遗传的多个基因座上等位基因的组合。利用单倍型分析技术,我们可以确定遗传病的遗传规律、定位致病基因、筛查遗传病风险等。三代测序的超长读长能够跨基因组复杂结构,构建起于目标变异连锁遗传的单倍型。黄玲玲等利用三代测序技术明确了1例ATRX基因部分重复插入基因组的物理位置,结合临床表型和文献分析确认其致病性,并发现该突变在家系中为X-连锁隐性遗传。通过构建SNP单体型,助力该夫妇成功受孕。
五、三代测序技术的机遇与挑战
三代测序技术以其超长读长和高通量的优势,在遗传病检测领域显示出广阔的应用前景。然而,三代测序技术也面临挑战,如测序成本较高、测序错误率较高以及数据分析难度较大等。目前在临床应用中,为了降低成本,采用了基因捕获后再进行三代测序的方法,虽然成本降低了,也带来了检测局限性,例如没有捕获到的区域就无法检测到。相信随着技术的不断进步,这些问题有望得到解决,在可以预见的未来这项技术将更加成熟、成本更低、准确性更高,成为遗传病检测、个性化医疗及生命科学研究的强大工具,为人类健康事业贡献更多力量。
供稿人:医学遗传与产前诊断科 伍志灵
参考文献:
[1]Sanger F, Nicklen S, Coulson A R. DNA sequencing with chain-terminating inhibitors. 1977[J]. Biotechnology (Reading, Mass.), 1992, 24: 104-108.
[2]高海明, 赵彦艳. 二代及三代测序技术在遗传学诊断中的应用进展[J]. 生物技术进展, 2020, 10: 646-654.
[3] Pauper M, Kucuk E, Wenger A M, et al. Long-read trio sequencing of individuals with unsolved intellectual disability[J]. European Journal of Human Genetics, 2021, 29(4): 637-648.
[4] 王珺, 苟兴庆, 王茜怡, 等. SMRT测序技术在6例平衡易位断裂点检测中的应用[J]. 中华生殖与避孕杂志, 2022, 42(12): 1284-1291.
[5] 许伊云, 许争峰. 三代测序技术在遗传病诊断中的应用进展[J]. 中华妇产科杂志, 2022, 57(9): 707-711.
[6] 21羟化酶缺陷导致的先天性肾上腺皮质增生症的实验室诊断共识[J].
[7] 黄玲玲, 陈佳, 许定飞, 等. 第三代测序技术在ATR-X综合征家系胚胎植入前遗传学检测中的应用[J]. 中华生殖与避孕杂志, 2024, 44(6): 639-645.
[8]J. Eid, A. Fehr, et al.Real-time DNA sequencing from single polymerase molecules, Science 323 (2009) 133–138.
[9]M.K. Midha, M. Wu, K.P. Chiu, Long-read sequencing in deciphering human genetics to a greater depth, Hum Genet. 138 (2019) 1201–1215.
[10]Wenger AM, Peluso P, Rowell WJ, et al. Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome.NatBiotechnol.2019;37(10):1155-1162.doi:10.1038/s41587-019-0217-9
[11]Wang Y, Zhao Y, Bollas A, Wang Y, Au KF. Nanopore sequencing technology, bioinformatics and applications. Nat Biotechnol. 2021 Nov;39(11):1348-1365. doi: 10.1038/s41587-021-01108-x. Epub 2021 Nov 8. PMID: 34750572.