您当前位置:首页资讯公司新闻
重磅突破丨真迈CMS:一种突破非经典DNA结构测序瓶颈的新技术
时间:
2026-05-11
浏览次数:

重磅突破丨真迈CMS:一种突破非经典DNA结构测序瓶颈的新技术

文章梗概

近日,真迈生物研发团队在bioRxiv预印期刊上公布了“CMS: Achieving Uniform and High-Quality Sequencing across Challenging Non-canonical Genomic Regions”的创新成果,推出了全新CMS(Cross Mountains and Seas)测序技术。该技术通过对测序化学体系的系统性升级,在传统技术“无法测序”的非经典DNA(non-B)区域实现了突破性进展。


基于全基因组和靶向测序分析显示,CMS在富含non-B基序的基因组区域提供了更优的覆盖深度与均匀性,显著降低了低覆盖区域数量。更重要的是,其同时降低了变异检测中的假阳性(FP)和假阴性(FN)。


CMS技术为精准解析结构复杂但功能关键的基因组区域提供了一种强大、均衡且高性价比的新工具,标志着真迈生物在国产高端测序技术领域迈出了关键一步,为复杂基因组区域的精准测序提供了自主可控的创新解决方案。


背景介绍

在人基因组中,广泛存在着一类非经典DNA(non-B DNA)结构,如G-四链体(G4s)、Z-DNA、发夹结构和H-DNA等,它们区别于经典的B型双螺旋构象,这些结构富集于启动子、增强子、着丝粒和端粒等关键功能区域,在基因调控、染色质组织、DNA复制和基因组进化中发挥关键作用。


然而,由于其易形成复杂二级结构,进而严重阻碍测序酶的延伸,non-B区域长期成为传统测序技术的“盲区”,表现为覆盖度断崖式下降、错误率高等问题。


正因如此,测序技术开发者和科研人员经常要在“覆盖度与数据质量”之间做取舍、找平衡:追求更高覆盖度往往需保留更多低质量数据,导致变异检测假阳性升高;而严格过滤则会造成覆盖缺失,假阴性随之上升。这严重制约了对non-B区域的精准解析及其功能研究。


为突破这一瓶颈,真迈生物研发团队开发了全新的CMS测序技术。为系统评估CMS技术性能,选取标准参考样本(HG001、HG002、HG003)构建PCR-free DNA文库,在SURFSeq 5000(基于CMS技术)、NovaSeq X Plus(NX)和DNBSEQ-T7(T7)三个主流测序平台进行对比测试。其中,CMS平台每个样本设置2次技术重复,共获得6个数据集;NX与T7平台各进行1次测序,分别获得3个数据集。随后,在相同条件下对所有数据集开展生物信息学分析与比较。


*以下为该研究成果解读

成果解读



1、极低覆盖区域的突破性改善

基于GRCh37参考基因组GIAB高置信区域开展分析,CMS、NX与T7所有数据集bin的测序覆盖中位深度均处于90.2X至101.9X之间,具备可比性(图1a)。


在整体覆盖均一性方面,CMS的变异系数(CV)最低,表明其全基因组覆盖一致性最优(图1b)。在<0.1x Median depth bin(极端低覆盖区域)的分析中,CMS的低覆盖区域数量平均仅18.5个,较NX(1,623个)减少约90倍,较T7(约2,209个)减少约120倍(图1c);该优势在<0.3x Median depth分析中依然保持(图1d)。


韦恩图分析进一步揭示(图1e、1f),NX和T7平台各自存在大量特有的低覆盖区域,这反映出方法学差异导致的测序“盲区”差异。而CMS特有的低覆盖区域极少(0.1X阈值下仅5个),其能够高质量的覆盖传统测序平台各自难以测通的区域。


综上所述,CMS在整体覆盖均一性、极端低覆盖区域数量等方面表现优异,为复杂基因组区域(特别是non-B结构)的高质量测序奠定了坚实基础。


重磅突破丨真迈CMS:一种突破非经典DNA结构测序瓶颈的新技术

图1 低覆盖区间在不同测序平台与样本中的分布



2、CMS技术在non-B DNA区域的覆盖度显著提升

为全面评估CMS技术在不同基因组背景下的覆盖表现,研究分析了全基因组及各类non-B结构区域的归一化深度分布。


结果显示,在全基因组及全类non-B结构区域(图2a、2b),CMS的深度分布曲线集中于归一化深度1.0,形态尖锐对称;而对比平台则呈现明显的“左拖尾”现象,即覆盖度异常低的区间具有较大面积,表明它们在复杂区域存在普遍的深度异常情况。CMS的优势在所有检测的non-B类型中表现出高度普适性(图2c-2i),尤其在G-四链体、正向重复和短串联重复区域最为突出。


上述结果表明,CMS对复杂的non-B二级结构基因区域具有极强的测序能力,从而实现了基因组覆盖完整度的大幅提升。


重磅突破丨真迈CMS:一种突破非经典DNA结构测序瓶颈的新技术

2 全基因组及non-B DNA区域的覆盖度分布


3、不同基因组背景下变异检出的优异性能

通过对全基因组、non-B区域及低覆盖区域(<0.3X、<0.5X中位深度)的SNV和INDEL变异检出准确性进行系统评估,证实了CMS成功打破了传统测序中覆盖度与准确性之间的“两难抉择”


在全基因组水平,CMS在SNV检测中实现了最高的灵敏度和精准度。在INDEL检测中,CMS的FN仅约为对比平台的40%,优势明显(图3c-3d)


non-B和极端低覆盖区域,CMS的性能优势更为突出,non-B区域中,CMS 的INDEL FN数量较对比平台降低约70%,同时SNV的精准度也显著优于对比平台(图3e-3h)


综上,CMS技术实现了覆盖度与变异检出保真度的协同提升,为复杂基因组区域的精准变异检测提供了可靠支撑。


重磅突破丨真迈CMS:一种突破非经典DNA结构测序瓶颈的新技术

图3 不同基因组背景下变异检测准确性的评估


4、CMS技术在T2T基因组和线粒体基因组中的覆盖优势

为克服GIAB高置信度区域对复杂non-B DNA区域的排除所带来的评估局限,研究利用HG002 T2T参考基因组和线粒体基因组做进一步分析。


结果显示,CMS平台在<0.1x和<0.3x中位深度阈值下的低覆盖区间数量分别为3,891和140,559,显著低于NX(25,052和434,387)和T7(49,574和530,037)平台(图4a-4b)。在<0.1x阈值下,CMS低覆盖区间数量较T7和NX分别减少约12倍和6倍


在线粒体基因组覆盖度分析中,我们还引入了Element AVITI平台的UltraQ官方PCR-free WGS数据进行参考分析。CMS的覆盖均一性表现最优,即使在Poly序列、二级结构富集的D-Loop区域也能实现均一、高质量覆盖,而UltraQ™的覆盖波动最为显著,可能与其测序化学有关(图4c)。


综上,CMS在T2T基因组和线粒体基因组中均实现了优异的覆盖完整性与均匀性


重磅突破丨真迈CMS:一种突破非经典DNA结构测序瓶颈的新技术

4 HG002 T2T基因组与线粒体基因组的覆盖深度及均匀性评估


5、CMS技术在靶向测试中的性能评估

为评估CMS在靶向测序中的性能,本研究对五个GIAB标准样本(HG001–HG005)在CMS和NX平台进行了全外显子组测序(WES)。


结果显示,与NX平台相比,CMS在SNV和INDEL检测中均实现了FP和FN的同步降低(图5a-5d)。利用靶向测序的“浓缩效应”可更灵敏地评估motif驱动的测序偏好,在1.5X深度阈值下,CMS的优势区域是NX平台的17.6倍。在具体示例中,针对基因KMT2D(polyG区域)CMS实现了该区域高质量、高均一性覆盖,而NX平台则表现出Reverse链覆盖度的急剧下降(图5f)。


最后,本研究基于合成生物学技术构建了包含各类测序困难区域的合成Pooling文库。以包含G4基序的文库分子的测序数据为例。NX平台表现了出极端的链偏好性(正反链比约1:166,即正向链无法正常测序);而CMS的正反链数据则保持了平衡的1:1比率,实现了高质量覆盖(图5g)。


综上,CMS能有效解决复杂二级结构诱导的聚合酶停滞问题,在靶向区域中确保无偏倚的覆盖和准确的变异检测。


重磅突破丨真迈CMS:一种突破非经典DNA结构测序瓶颈的新技术

5 CMS在靶向测序中的性能评估


重磅突破丨真迈CMS:一种突破非经典DNA结构测序瓶颈的新技术

5f 不同技术平台对KMT2D高GC区域的覆盖表现


重磅突破丨真迈CMS:一种突破非经典DNA结构测序瓶颈的新技术

5g 不同技术平台对合成G4基序文库的覆盖表现


结论

CMS技术成功解决了基因组测序中长期存在的覆盖度数据质量之间的固有权衡问题。


通过系统性优化,CMS在non-B DNA等复杂结构区域实现了覆盖均匀性与变异检测准确性的协同提升,显著降低了低覆盖区间数量及假阳性/假阴性变异检出数量T2T及线粒体基因组中覆盖完整性与均匀性均最优;在靶向测序中,有效解决了G4基序等复杂二级结构诱导的测序停滞与链偏好性


该技术为精准解析结构复杂但功能关键的non-B DNA区域及其在生理和病理过程中的作用,提供了强大、均衡且自主可控的技术支撑。


参考文献

Qigang Li, Lei Liu et al. CMS: Achieving Uniform and High-Quality Sequencing across Challenging Non-canonical Genomic Regions.  Biorxiv. 20264


相关推荐
暂无数据