CNVs检测选 WES 还是 CMA?WES可以作为一线检测手段吗?

2024.04.18 责任编辑:陈醒 阅读量:23

染色体疾病包括常染色体非整倍体疾病、性染色体非整倍体疾病及染色体结构异常疾病。
基因组疾病是基因拷贝数缺失(CNVs)造成的疾病(缺失综合征)和拷贝数增加造成的疾病(重复综合征)。
拷贝数变异(copy number variations, CNVs)是指染色体上大于1kb的DNA片段的增加或者减少,主要表现为亚显微水平的缺失和重复。致病性CNV可导致一类重要的遗传病——基因组病,其临床表型复杂多变,主要包括智力低下、发育滞后、面容异常、多发畸形等。
CNVs的检测除能发现显微水平的染色体不平衡改变外,亦能发现传统G显带核型分析所无法检出的染色体亚显微结构异常(通常<5~10 Mb)。
已明确由致病性基因组拷贝数变异(pathogenic copy number variations, pCNVs)所致的染色体微缺失/微重复综合征已达300多种,综合发病率近1/600,占染色体畸变所致出生缺陷的一半。有研究表明,核型分析未见异常但超声提示结构异常的胎儿中,有6%~7%存在明确致病或可能致病的CNVs。此外,核型分析与超声均未发现异常的胎儿中有1.0%~1.7%存在明确致病或可能致病的CNVs
CNVs检测应该选CMA技术,还是CNV-seq技术?纠结中?
可能一些同学还在纠结选择CMA还是CNV-seq的时候,现在还得纠结选择CMA还是WES了?
随着WES逐步成为临床检测基因疾病的常规手段,分析CNV的算法也逐步升级并成熟,那么WES在CNV检测方面能够取代CMA吗?
尤其是在产前胎儿检测中,
应该是选择费用更高的核型+CMA+家系WES?
还是序贯的方法先核型+CMA,然后再+家系WES?
还是“性价比”更高的核型+家系WES
许多先前发表的文献报告,基于WES数据分析CNVs存在较高的假阳性率和较低的灵敏度。
那么现在的研究结论,还是这样的吗?
有兴趣的读者可持续关注这一系列的文献解读

Rajagopalan et al (2020)

研究对象
本研究收集了1972名在费城儿童医院的基因组诊断实验室进行基因检测的数据,并从1972个具有WES数据的样本中选取了307个样本(166名男性和141名女性,包括286名受累先证者和21名家庭成员)作为对比研究队列,这些样本同时具有CMA数据。
研究方法
SureSelect V5 plus作为靶向捕获试剂(Agilent Technologies, Santa Clara, CA),GRCh37作为参考基因组序列,使用基于R包ExomeDepth的CNV检测流程。
CMA芯片为Illumina CytoSNP 850k芯片,少于10个探针的CNVs会被排除,因为假阳性率随着探针数量的减少而增加。由于缺失CMA和WES在Y染色体上覆盖数据,排除了Y染色体相关的CNVs。
为了让两个平台的数据能够进行合理的比较,对选取的CNVs做如下要求:
1)来自CMA平台的CNVs至少有一个外显子;
2)来自WES的CNVs至少一个bait(对于杂交捕获来说,targeted regions指的是探针试剂盒尝试捕获的区域;baited regions指的是captured regions,实际捕获到的区域,通常包括每个target上下游50bp),并且至少与CMA数据重叠10个SNP探针,以最大限度地减少WES数据的假阳性和假阴性。
在整个研究队列中,每个WES样本的平均CNVs数量为145,标准差为25
如果在CMA中检测到CNVs,但在WES中没有检测到,会人工核查CMA的原始数据,以确定WES数据的假阴性,还是CMA数据的假阳性。
研究结果
经过筛选后,得到初始认为是真阳性的487个CNVs(448个位于常染色体,39个位于X染色体,数据来自CMA),用于与WES数据中的CNVs进行比较;其中32个CNVs在最初的比较中,未在WES数据中检测到
在这些假定的WES识别出的假阳性CNVs中,24个CNVs通过CMA被证实为真阳性,5个CNVs通过CMA被证实为假阳性,3个CNVs为模棱两可。
排除CMA数据中不存在或模棱两可的8个CNVs,校正后的真阳性CNVs为479个
经过分析和筛选,CMA共检测479个CNVs,其中180个deletion(缺失)、299个duplication(重复)。其中,36个小的缺失CNVs(20%)、68个小的重复CNVs(23%)涉及到的外显子<4个。
使用默认的ExomeDepth
分析CNVs结果
使用UCSC基因组浏览器的35-mer比对性评分,来计算每个外显子的平均比对率,排除平均比对率≤0.75的外显子,结果是:在全基因组范围内的190,340个外显子中,排除了8,527个(4.5%),其中包括了可能有临床意义的1,132个外显子(0.6%)。
1.评估WES的“错误检出率”
从307个样本中,选取124个样本,用于评估WES的“错误检出率”(以CMA的结果为标准)。
在这些样本中,来自WES的385个CNVs可以与SNP芯片中的至少10个探针重叠。
42%的calls来自两个已知的极度多态性区域:杀伤细胞的免疫球蛋白样受体区域chr19 (chr19:55,236,714-55,367,367)、HLA区域chr6 (chr6:32,549,335-32,709,302)。因此放弃分析这些calls。
将剩余的225个CNVs与SNP array数据进行比较。其中103个能被SNP array识别,而122个未被SNP array识别,已经通过人工核查对应的SNP芯片中探针的Log2R比例、B等位基因频率、基因型。其中23个CNVs在人工核查后被确定为真实的CNVs,剩余99个为假阳性,比例为44%(99/225)
2.评估WES的“真阳性率”
WES检出的缺失CNVs真阳性率为96%,重复CNVs真阳性率为95%。小的缺失CNVs(<4个外显子)和小的重复CNVs(<4个外显子)的敏感度分别为86%和87%(如上图)。
32个CNVs(来自CMA平台)未被WES识别,被视为WES识别CNVs的假阴性,其中20个CNVs是位于基因组区域的高度多态性或片段重复区域,没有临床意义。其中14个CNVs涉及第一或最后外显子(如上图)。
其中5个CNVs(来自CMA平台,均为缺失)被确认为CMA结果的假阳性(5/1013,数据来自table2),比例为0.5%
其中4个CNVs(来自CMA平台,均为重复)被假定为CMA结果的真阳性。
使用改进后的ExomeDepth
分析CNVs结果
假阳性CNVs主要集中在基因组的高度同源区域和/或序列复杂度低的区域(上图A)。与真阳性CNVs相比,假阳性CNVs的平均比对值(mean mappability scores)较低(上图B)。
改进后,在124个样本中(为了评估WES的错误检出率),WES识别的249个(之前385个)CNVs可以与SNP芯片中的至少10个探针重叠。其中100个CNVs来自多态性区域,放弃分析。84个(之前103个)CNVs被SNP array检测到,65个(之前122个)CNVs需要人工核查对应的SNP芯片中探针的Log2R比例、B等位基因频率、基因型。最终分析了149个CNVs,发现WES数据中有17个为假阳性,因此,错误检出率为11.4%(之前为44%)。
改进后,WES识别CNVs平均数量从每个样本145个(范围83~259,中位数142)减少每个样本51个(范围31~167,中位数49)(如上图)。
在479个高质量的CNVs中,根据改进后的WES分析流程,排除了20个CNVs,因为其外显子的平均比对率(mean mappability)较低,最终得到了459个CNVs(之前为479个)
在20个被排除的CNVs中,只有2个被用于临床报告的(2/479, ~0.4%),该CNVs覆盖HBA1/HBA2基因(chr16:223477-227391),它们是已知的高度同源的基因,且平均比对率(mean mappability)较低
与真阳性的CNVs相比,假阳性的CNVs具有较低的平均比对率,因此调整这个参数改进后,WES检出的缺失CNVs真阳性率为98%(之前为96%)重复CNVs真阳性率为96%(之前为95%)。小的缺失CNVs(<4个外显子)和小的重复CNVs(<4个外显子)的敏感度分别为94%(之前为86%)和87%(之前为87%)
基因组高度同源区域
会影响WES识别CNVs的准确性
STRC基因与常染色体隐性非综合征性听力损失有关。STRC基因有一个假基因,相似度99.6%,29个外显子中的前15个在两个基因之间是相同的。在默认的分析流程中,731个样本(占比37%)有953个STRC基因相关CNVs, 有147个样本涉及STRC基因的缺失和重复。
在改进后的分析流程中(排除比对率<0.75的STRC基因外显子),76个样本(占比4%)有76个STRC基因相关CNVs(29个缺失和47个重复)。其中,作者对涉及多个外显子的6个重复、27个缺失、2个单外显子缺失进行验证(ddPCR、long PCR),证实并发现了这些CNVs与外显子24和26的基因转换(gene conversion)有关(如上图5)。
与WGS相比,WES的效能
由于WES检测出的CNVs大多低于SNP array的分辨率。作者利用5个样本的全基因组测序数据进行了二次验证。
5个样本(307个样本中的5个),使用free PCR WGS (2×150 bp),平均测序深度40×,BAM(hg38)。
在WGS数据中观察到以下特征,则可认为每一个CNV都是真阳性:(1)与断点侧翼区域相比,called CNV的读取深度与预期一致;(2)异常的读长配对(read pairs)大于预期插入片段大小;(3)软切割和/或分割比对断裂点异常的read。如果WGS数据没有这些特征,或者并不能确定某一特征,则外显子组中的CNVs被标记为假阳性。
使用改进后的分析流程,这5个样本,WES识别出的249个CNVs(130个缺失、119个重复)。其中55个可能是由于CNVs区域内的多态性而放弃分析。
最终,194个CNVs用于与WGS数据比对(从WES中检测到的CNVs的GRCh37基因组坐标,使用liftover软件工具将其转换为hg38基因组坐标)。
共有43个CNVs(22%)在1000次重复试验中每一次都出现。56%(24/43)CNVs被认为是真阳性,错误发现率为44%,而其余的CNVs在WGS数据中没有找到reads或是模棱两可的reads。
当重复试验次数降至900次时,错误发现率提高到64%(67/106);当次数降至800次时,错误发现率进一步提高到68%(87/129)。
总体而言,42个真阳性CNVs的平均重复试验次数为987次(范围854~1000;中位数1000)。
使用已知真阳性的最小重复次数(854),平均每个个体有28个CNVs;在1000次重复中,每个个体只有12个CNVs。因此发现,大多数假阳性CNVs与以下三种情况相关:1)与低比对率的外显子重叠的片段重复(segmental duplications) 、2)存在多个单倍型、3)多态性区域。
WES结果的复现率(reproducibility)
改进后的WES分析结果的复现率(reproducibility)分析表明,临床上报告CNVs的复现率为100%,并且改进后的WES分析可将CNVs从高置信度到低置信度排序。
复现率取决于对照的选择,保持对照队列的频繁更新是很重要的。同样重要的是要确保对照使用相同的测序平台、文库制备方法、目标捕获试剂盒。
WES的新发现
作者回顾了与已知疾病基因重叠的CNVs,在4例无诊断结果的个体中(已通过SNV/indel only exome和SNP array分析),发现了4个新的诊断性CNVs
作者发现了外显子组数据中嵌合性读长中两个缺失的准确断裂点,并通过Sanger测序验证了这些断点。
影响CNVs真阳性的因素
在CMA中,已知CNVs中的探针数量与call(检出)的置信度相关,并且假阳性率随着探针数量的减少而增加。
非靶向外显子的全基因组范围的芯片对<4个外显子具有较低的分辨率,因此,芯片可能不是与WES比较的最佳正交技术。
WES在富含GC的区域、片段重复区域、序列复杂度较低的区域(low sequence complexity,约占基因组大小的60%,序列比对和组装困难),具有较低的测序效率。
由于基于靶向捕获,因此无论CMA或WES都可能存在“漏”捕的可能。
回顾假阴性时,发现大多数涉及多态性或片段重复区域以及基因的第一个或最后一个外显子。第一个外显子通常GC含量丰富,并且GC的含量极大地影响覆盖的深度。然而,目前并无证据表明最后一个外显子与测序过程中覆盖深度不均匀相关。
尽管取得了积极的结果,但仍存在一些挑战。无论使用何种技术,都无法确定基因组高度可变区域的精确拷贝数。当使用短读长测序时,基因组高度同源区域经常会导致假阳性和假阴性的CNVs检出。
使用外显子水平的平均比对率阈值有助于减少假阳性,但会完全排除一些临床疾病相关基因(如SMN1和SMN2)。排除较低的平均比对率的外显子后,会减少4.5%(8,527/190,340)的外显子数,包括短读长二代测序难以处理的一部分外显子(0.6%, 1,132/190,340)。但在本次研究中,漏报了两个临床相关的CNVs(HBA1/HBA2基因)。其好处在于减轻了下游分析和验证的负担。但对于STRC基因的缺失和重复,能达到100%的验证率,这也是令人鼓舞的,需要进一步的工作来了解对基因组其他类似区域的影响。
通过WES,作者能够检测到临床相关的和复杂区域的CNVs,例如STRC基因,在检测样本中具有100%的验证率。(目前,STRC基因的标准检测方法是对外显子23和内含子25进行ddPCR检测)。而WES分析出STRC基因的3个外显子(外显子23、24、26),这是一个进步。
作者使用改进后的分析流程回顾149个CNVs,发现WES数据中有17个为假阳性,错误率为11.4%(相比标准的CMA分析);其中89%的假阳性CNVs位于多态性区域、片段重复区域、序列复杂度较低的区域11%的假阳性CNVs位于两个邻近基因的第一/最后外显子
综上
1.比较table3和table4发现,对于在临床上报告的CNVs而言,CMA和WES的一致率是100%,无差异。只是改进后的WES分析CNVs流程是为了减少假阳性率,而漏了2个缺失CNVs。
返回上页
售后客服
售后电话: 400-611-6196
意见反馈
售后电话: 400-611-6196
意见反馈

类型

联系方式

内容

DNA鉴定

根据孟德尔遗传定律(亲子鉴定的理论基础),孩子身上的遗传物质一半来自于生物学父亲(简称“生父”),一半来自于生物学母亲(简称“生母”),每个基因座上的两个等位基因也分别来自生父和生母。DNA亲子鉴定就是根据科学技术将子女的DNA信息与父亲、母亲的DNA信息相比对,如果符合即是亲生关系,不符则非亲生。

威斯尼斯人wns888入口依托自主研发的多项国家专利技术,向广大社会公众提供准确、可靠的亲子关系鉴定服务。蓝沙实验室采用高通量测序技术,并配备市面先进检测设备;为确保结果的准确性,实施了包含样本质检、生产质检、报告质检三层质检流程,结合生物信息分析与计算机数据分析技术,对检测过程进行严格的质量监控和比对,确保每一位客户都能得到精确可靠的鉴定结果。

XML 地图