在人基因组中,广泛存在着一类非经典DNA(non-B DNA)结构,如G-四链体(G4s)、Z-DNA、发夹结构和H-DNA等,它们区别于经典的B型双螺旋构象,这些结构富集于启动子、增强子、着丝粒和端粒等关键功能区域,在基因调控、染色质组织、DNA复制和基因组进化中发挥关键作用。
然而,由于其易形成复杂二级结构,进而严重阻碍测序酶的延伸,non-B区域长期成为传统测序技术的“盲区”,表现为覆盖度断崖式下降、错误率高等问题。
正因如此,测序技术开发者和科研人员经常要在“覆盖度与数据质量”之间做取舍、找平衡:追求更高覆盖度往往需保留更多低质量数据,导致变异检测假阳性升高;而严格过滤则会造成覆盖缺失,假阴性随之上升。这严重制约了对non-B区域的精准解析及其功能研究。
为突破这一瓶颈,真迈生物研发团队开发了全新的CMS测序技术。为系统评估CMS技术性能,选取标准参考样本(HG001、HG002、HG003)构建PCR-free DNA文库,在SURFSeq 5000(基于CMS技术)、NovaSeq X Plus(NX)和DNBSEQ-T7(T7)三个主流测序平台进行对比测试。其中,CMS平台每个样本设置2次技术重复,共获得6个数据集;NX与T7平台各进行1次测序,分别获得3个数据集。随后,在相同条件下对所有数据集开展生物信息学分析与比较。
基于GRCh37参考基因组GIAB高置信区域开展分析,CMS、NX与T7所有数据集bin的测序覆盖中位深度均处于90.2X至101.9X之间,具备可比性(图1a)。
在整体覆盖均一性方面,CMS的变异系数(CV)最低,表明其全基因组覆盖一致性最优(图1b)。在<0.1x Median depth bin(极端低覆盖区域)的分析中,CMS的低覆盖区域数量平均仅18.5个,较NX(1,623个)减少约90倍,较T7(约2,209个)减少约120倍(图1c);该优势在<0.3x Median depth分析中依然保持(图1d)。
韦恩图分析进一步揭示(图1e、1f),NX和T7平台各自存在大量特有的低覆盖区域,这反映出方法学差异导致的测序“盲区”差异。而CMS特有的低覆盖区域极少(0.1X阈值下仅5个),其能够高质量的覆盖传统测序平台各自难以测通的区域。
综上所述,CMS在整体覆盖均一性、极端低覆盖区域数量等方面表现优异,为复杂基因组区域(特别是non-B结构)的高质量测序奠定了坚实基础。

图1 低覆盖区间在不同测序平台与样本中的分布
2、CMS技术在non-B DNA区域的覆盖度显著提升
为全面评估CMS技术在不同基因组背景下的覆盖表现,研究分析了全基因组及各类non-B结构区域的归一化深度分布。
结果显示,在全基因组及全类non-B结构区域(图2a、2b),CMS的深度分布曲线集中于归一化深度1.0,形态尖锐对称;而对比平台则呈现明显的“左拖尾”现象,即覆盖度异常低的区间具有较大面积,表明它们在复杂区域存在普遍的深度异常情况。CMS的优势在所有检测的non-B类型中表现出高度普适性(图2c-2i),尤其在G-四链体、正向重复和短串联重复区域最为突出。
上述结果表明,CMS对复杂的non-B二级结构基因区域具有极强的测序能力,从而实现了基因组覆盖完整度的大幅提升。

图2 全基因组及non-B DNA区域的覆盖度分布
通过对全基因组、non-B区域及低覆盖区域(<0.3X、<0.5X中位深度)的SNV和INDEL变异检出准确性进行系统评估,证实了CMS成功打破了传统测序中覆盖度与准确性之间的“两难抉择”。
在全基因组水平,CMS在SNV检测中实现了最高的灵敏度和精准度。在INDEL检测中,CMS的FN仅约为对比平台的40%,优势明显(图3c-3d)。
在non-B和极端低覆盖区域,CMS的性能优势更为突出,non-B区域中,CMS 的INDEL FN数量较对比平台降低约70%,同时SNV的精准度也显著优于对比平台(图3e-3h)。
综上,CMS技术实现了覆盖度与变异检出保真度的协同提升,为复杂基因组区域的精准变异检测提供了可靠支撑。

图3 不同基因组背景下变异检测准确性的评估
4、CMS技术在T2T基因组和线粒体基因组中的覆盖优势
为克服GIAB高置信度区域对复杂non-B DNA区域的排除所带来的评估局限,研究利用HG002 T2T参考基因组和线粒体基因组做进一步分析。
结果显示,CMS平台在<0.1x和<0.3x中位深度阈值下的低覆盖区间数量分别为3,891和140,559,显著低于NX(25,052和434,387)和T7(49,574和530,037)平台(图4a-4b)。在<0.1x阈值下,CMS低覆盖区间数量较T7和NX分别减少约12倍和6倍。
在线粒体基因组覆盖度分析中,我们还引入了Element AVITI™平台的UltraQ™官方PCR-free WGS数据进行参考分析。CMS的覆盖均一性表现最优,即使在Poly序列、二级结构富集的D-Loop区域也能实现均一、高质量覆盖,而UltraQ™的覆盖波动最为显著,可能与其测序化学有关(图4c)。
综上,CMS在T2T基因组和线粒体基因组中均实现了优异的覆盖完整性与均匀性。

图4 HG002 T2T基因组与线粒体基因组的覆盖深度及均匀性评估
为评估CMS在靶向测序中的性能,本研究对五个GIAB标准样本(HG001–HG005)在CMS和NX平台进行了全外显子组测序(WES)。
结果显示,与NX平台相比,CMS在SNV和INDEL检测中均实现了FP和FN的同步降低(图5a-5d)。利用靶向测序的“浓缩效应”可更灵敏地评估motif驱动的测序偏好,在1.5X深度阈值下,CMS的优势区域是NX平台的17.6倍。在具体示例中,针对基因KMT2D(polyG区域),CMS实现了该区域高质量、高均一性覆盖,而NX平台则表现出Reverse链覆盖度的急剧下降(图5f)。
最后,本研究基于合成生物学技术构建了包含各类测序困难区域的合成Pooling文库。以包含G4基序的文库分子的测序数据为例。NX平台表现了出极端的链偏好性(正反链比约1:166,即正向链无法正常测序);而CMS的正反链数据则保持了平衡的1:1比率,实现了高质量覆盖(图5g)。
综上,CMS能有效解决复杂二级结构诱导的聚合酶停滞问题,在靶向区域中确保无偏倚的覆盖和准确的变异检测。
图5 CMS在靶向测序中的性能评估
图5f 不同技术平台对KMT2D高GC区域的覆盖表现