近日,真迈生物在BMC bioinformatics上发表了题为“Systematic and benchmarking studies of pipelines for mammal WGBS data in the novel NGS platform”的研究成果。该研究在真迈生物GenoLab M高通量测序平台和Illumina的NovaSeq 6000平台进行全基因组甲基化测序,比较了两个平台对小鼠肝脏细胞系NCTC1469和人胚胎肾细胞系293(HEK293)的全基因组甲基化图谱的差异与影响,并探究了GenoLab M平台对于目前5款常用甲基化分析流程(BSMAP,Bismark,BS Seeker2,BatMeth2,BSBolt)的偏好性。
背景介绍
全基因组甲基化测序(Whole Genome Bisulfite Sequencing,WGBS)主要是通过重亚硫酸盐将基因组序列中没有发生甲基化的胞嘧啶(Cytosine--C)转化为尿嘧啶,再通过高通量测序平台,对胞嘧啶的甲基化水平进行检测,精确解析每一个胞嘧啶(C)的甲基化状态,从而构建全基因组甲基化图谱,深入探究甲基化胞嘧啶在人类疾病、生长发育过程中的重要作用。
01项目研究概要
本研究采用小鼠肝脏细胞系和人胚胎肾细胞系样本,各有2个生物学重复,构建完甲基化文库后,文库一分为二,分别在GenoLab M平台和NovaSeq 6000平台测序,共获得8个下机数据。随后完成全基因组甲基化分析,解析不同平台的甲基化图谱分布的影响和差异,以及GenoLab M平台数据的分析软件偏好。
图1 关键的干、湿实验流程图
02数据质控-GenoLab M平台数据质量更好
两个平台下机序列(reads)开头和结尾的几个碱基质量较低,这会影响后续序列在全基因组上的比对准确性。因此,我们比较了截取不同长度碱基后序列的比对情况。发现,将read1序列的结尾和read2序列的开头分别截取掉10个碱基,可以有效提升全基因组范围内的唯一比对准确率,参见图2 a和c图。基于上述处理后,我们发现,同等下机数据情况下,GenoLab M平台的有效数据产出更多。
图2 过滤步骤中reads的最优base剪切数
03甲基转化率平台间差异表现和分析软件偏好类似
随后,我们分别使用了五个常用的分析软件进行全基因组的比对分析和甲基化C分布检测的平行比较。结果发现,GenoLab M平台数据的重复序列相对NovaSeq 6000更低(人3.05% VS 12.38%,鼠2.82% VS 17.24%)。两个测序平台的数据使用BSBolt软件均可获得最高的唯一比对率(人94%,小鼠91%);其次是BetMath2软件(人91%,小鼠86%)。两个测序平台产出数据使用BS Seeker2比对获取到的唯一比对率最低。五个软件检测到的甲基化C占比均为70~80%范围内。
图3 不同软件检测到的比对率和甲基化Cs(CG、CHG、CHH)的占比
04全基因组甲基化图谱一致性评估
使用五个软件对两个平台产出的数据进行分析,我们发现,所有软件获取的全基因组范围内CG序列甲基化率分布图谱(mCGs)均具有较高的一致性,但是CHG和CHH序列甲基化率分布图谱差异较大。通过检测不同生物学重复样本所有的甲基化C位点(mCs)和CG序列甲基化的C位点(mCGs),我们发现,相对于NovaSeq 6000平台,GenoLab M平台数据具有更多的mCs和mCGs位点,且在不同生物学重复样本中,这些mCs和mCGs具有更高的一致性。
比较五个分析软件所能检测到的全基因组C,我们发现,在生物学重复样本中,BSMAP、BS Seeker2和Bismark获取到的mCGs的结果一致性更高,且结果可以相互验证。综合比较,BSMAP软件获取的结果相对来说最好,且耗时也相对最少。
表格1 五个分析软件的配置和分析HEK293样本数据的时间消耗
图4 两个平台产出数据在不同软件检测出的全基因组图谱的比较
05mCGs图谱与早期分析的mCGs图谱的比较
基于BSMAP软件获取的全基因组甲基化图谱在基因附近的分布分析,我们发现,不管是在人细胞系中,还是在小鼠细胞系中,两个平台的结果一致性均较高。通过与早期已发表的HEK293细胞系的全基因组甲基化图谱结果比较,并重点关注了两个基因(GNB1和NSUN2)中甲基化位点的分布情况,我们发现两个平台数据集和早期的三个数据集中这两个基因的甲基化图谱一致性均较高。
图5 相关基因甲基化图谱的一致性比较
结论
基于上述全面的分析,我们得出如下结论:
1 、GenoLab M与NovaSeq 6000两个平台产出的甲基化数据通过有效截断过滤,可显著提升序列比对准确性;
2 、GenoLab M平台测序数据的重复序列更低,有效序列更多;
3、 GenoLab M平台数据包含更多有效的mCs和mCGs位点,且在人和鼠生物学重复样本中,其结果一致性更高;
4 、五个常用甲基化分析软件中,BSMAP的结果最好,相对耗时更短。
讨论
甲基化测序技术作为研究生命过程中基因调控的重要工具,在细胞分化和疾病进展方面得到了广泛的应用,临床检测方面的应用也越来越多。例如:肿瘤早筛-进展监测、精准治疗选择、微小残留监测、预后-复发检测等。目前,有研究发现,含有游离核酸的体液样本中可能含有肿瘤特异的DNA甲基化信号,它们可能是潜在的生物标志物。GenoLab M平台在本次WGBS全面分析中表现出测序质量更稳定、更高,数据覆盖度更深,重复率更低,甲基化一致性水平更高,准确率更好等性能,能满足更多的甲基化测序项目需求。