近日,真迈生物与Sentieon团队合作,开发并验证了GenoLab M测序仪搭配DNAscope专属分析模型的高精度变异检测方案。基于该检测方案,在人源细胞系标准品全基因组(WGS)与全外显子组重测序(WES)测试中,GenoLab M展现出了相对于Illumina NovaSeq与NextSeq测序平台在SNP与Indel检测准确度的显著优势。
高通量测序技术完成商业化的15年间,市场基本上被Illumina测序平台所垄断。尤其是2014年其推出的桌面式测序仪NextSeq 500以及2017年推出的生产工厂级别的NovaSeq 6000,代表了这两个级别测序仪的主流水平。然而,业界希望有更多的选择,期待有新的测序仪品牌的产品能够同时满足精准高效,灵活,经济的应用需求。
真迈生物推出了全新桌面级测序平台GenoLab M。该平台基于芯片扩增的表面荧光测序技术SURFseq(Surface Restricted Fluorescence Sequencing)对碱基的荧光信号进行识别,实现大规模并行测序,在之前发表的转录组评测文章中展现了不俗的应用潜力。本次基于GenoLab M平台的测序数据结合Sentieon DNAscope分析流程,亦获得了WGS和WES的高准确度变异结果,证明了GenoLab M平台在DNA和RNA测序领域的通用性。
Sentieon的DNAsocpe分析流程基于机器学习原理,相比于开源GATK能够更快更准确的处理DNA测序数据,完成变异检测。相比于针对Illumina平台开发的GATK流程,Sentieon DNAscope可以通过训练不同的算法模型,特异性的适配各种测序平台的数据特性,纠正系统性偏差,提升变异检测准确率。
在本文中,作者团队使用NA12878人源细胞系标准品DNA构建的WGS和WES(Agilent V8捕获)两个文库分别在GenoLab M、NovaSeq 6000和NextSeq 500平台上进行测序,NovaSeq/NextSeq平台测序结果使用GATK算法(文中使用的Sentieon DNAseq软件是基于GATK算法的一个加速方案)分析作为标准流程产生基线数据,与GenoLab M平台测序数据使用DNAscope适配流程的结果进行准确度的比对。
图表1 流程图
使用两种标准品文库,三种测序平台,两种分析工具搭建的项目流程图
统计GenoLab M、NovaSeq 6000和NextSeq 500的WGS和WES测序数据可见,GenoLab M原始下机数据的质量值介于NovaSeq 6000和NextSeq 500之间,数据冗余率(Duplication Rate)较低。
图表2 测试数据集的基本质控
GL_WGS_22/GL_WGS_33:分别代表GenoLab M平台WGS测序深度22X/33X数据
NA_WGS_22/NA_WGS_33:分别代表NovaSeq 6000平台WGS测序深度22X/33X数据
GL_WES_100/GL_WGS_raw:分别代表GenoLab M平台WES测序深度100X/原始下机数据
NA_WES_100/NA_WGS_raw:分别代表NovaSeq 6000平台WES测序深度100X/原始下机数据NT_WES_100/NT_WGS_raw:分别代表NextSeq 500平台WES测序深度100X/原始下机数据
文章首先分析了GenoLab M以及NovaSeq 6000平台在全基因组数据处理中的表现,考虑到测序深度决定了大部分数据生成的成本,我们在33x深度以外又通过降采样增加了22x的浅深度数据进行分析。分析完成后一共生成了4个VCF文件,参考GIAB高置信变异集(V4.2.1)计算SNP和InDel检测的灵敏度、特异性以及综合F-score。
可以看出,在全基因组的范围内,Genolab M+DNAscope的灵敏度与特异性都显著超越同深度的NovaSeq+GATK结果,并且前者22x深度的整体准确率能够达到后者33x的水平,展现了卓越的成本控制潜力。在基因组的细分区域,也可以看到相似的结论。
在重复序列区域Genolab M平台展现了更加显著的准确度优势,为该区域相关致病基因的检测带来了更多潜力。
图表3 WGS变异检测结果数据统计
全基因组范围内 (A) SNP、 (B) Indel的灵敏度,特异性,F-score;分区分析中,20号染色体(chr20)、低难度区域(NIADR, not-in-all-difficult-region)、重复区域(SDR, seg-dup-region)中(C) SNP (D) InDel的灵敏度,特异性,F-score。
在WES的准确率评测中,作者比对了GenoLab M,NovaSeq6000以及NextSeq500这三个平台生成的数据,每个数据又被降采样到100x,一共产生6个结果文件进行比对。
通过下图可以看出,基于WES数据,Genolab M+DNAscope变异检测的灵敏度(Recall)与NovaSeq/NextSeq+GATK检测结果类似,但是变异检测的特异性(Precision)大幅度领先,最终的综合F-score也较高,可以在100x的深度下达到NovaSeq/NextSeq平台更高深度才能达到的准确率。
图表4 WES变异检测结果数据统计
(A) SNP (B) InDel的灵敏度,特异性,F-score。
另外,我们比较了WES数据平台间变异检测结果的一致性可以看出,三个平台对SNP的检测结果一致性非常高,绝大多数正确的SNP被所有平台检出,但不同平台对InDel的检测结果则略有差异。
图表5 WES变异检测结果平台间一致性分析
(A)SNP,(B)InDel。
GenoLab M作为新一代桌面型高通量基因测序平台,为用户提供了一个新的选择。在本次的WGS和WES评测中,真迈生物GenoLab M +Sentieon DNAscope检测方案展现了优异的变异检测准确率,这不仅来源于测序平台本身的高质量,同时也来源于Sentieon DNAscope特异性适配模型的高性能。
真迈生物与Sentieon将持续合作,共同推动DNA重测序解决方案的升级与迭代,为业界提供更多更好的技术选择!
关于Sentieon
Sentieon致力于解决生物信息数据分析中的速度与准确度瓶颈,通过算法的深度优化和企业级的软件工程,大幅度提升NGS数据处理的效率,准确度,和可靠性。公司自成立以来,多次赢得precisionFDA国际生物信息挑战赛的第一名,包括三次临床多组学联合分析AI建模大赛冠军,展现了业内顶级的研发实力。Sentieon为来自于分子诊断,药物研发,临床医疗等多个领域的合作伙伴和科研机构提供软件解决方案,共同推动基因技术的发展,实现“成就精准数据,服务精准医疗“的愿景。