真迈生物联合深圳市环境科学院开发淡水藻类基因组数据库——FWAlgaeDB,助力水生态环境保护!
时间:
2024-02-06
浏览次数:

近日,真迈生物联合深圳市环境科学院在《Frontiers in Environmental Science》杂志上发表了题为“FWAlgaeDB,an integrated genome database of freshwater algae”的研究成果,发布了淡水藻类基因组数据库——FWAlgaeDB并阐述了数据库的结构及各功能板块。研究还基于真迈生物GenoLab M高通量基因测序平台对10个水库水体样本进行了宏基因组测序,在藻类物种鉴定方面,比较了FWAlgaeDB与NT库的差异及优势。


FWAlgaeDB是第一个专门的淡水藻类数据库,包含204个淡水藻类物种的生物学信息、基因组及功能注释信息,并整合BLAST在线比对软件,可以快速、准确地完成序列相似性比对和物种鉴定,对淡水藻类物种多样性保护及功能开发,具有重要作用。


真迈生物联合深圳市环境科学院开发淡水藻类基因组数据库——FWAlgaeDB,助力水生态环境保护!


真迈生物联合深圳市环境科学院开发淡水藻类基因组数据库——FWAlgaeDB,助力水生态环境保护!
背景简介

藻类是水生态系统中重要的成员,对碳固定和初级生产力的提高发挥关键作用,并在可再生能源、水产养殖和制药产业中具有普遍应用。淡水藻类广泛分布于人类的生活环境中,包括淡水湖泊、沼泽、水库、河流、溪流及冰川等,占据了淡水环境的重要生态位,与人类生存息息相关。近几十年来,淡水藻类在水质监测、生物多样性评估与废水重金属去除等方面受到密切广注。


藻类基因组包含重要的遗传信息,是藻类功能开发及遗传改造的基础,为生态环境保护与生物资源利用提供重要的理论依据。然而,目前已发表的藻类基因组序列有限且分散。已有的藻类相关数据库,比如GenBank和JGI,没有对淡水和海洋藻类进行有效的区分,且不包含藻类的生物学信息,比如生活环境、分类学信息、形态学图片等;而AlgaeBase和Algae-Hub,虽然包含藻类基本的生物学信息,但是没有收录其基因组信息。因此,对于专注于淡水藻类的研究人员来说,目前已有的藻类数据库并不能满足其研究需求。基于此,真迈生物和深圳市环境科学院合作开发了一个综合性的、开放访问的淡水藻类基因组平台--FWAlgaeDB助力淡水藻类研究和生态环境保护。


真迈生物联合深圳市环境科学院开发淡水藻类基因组数据库——FWAlgaeDB,助力水生态环境保护!
结果概要
01

数据来源

FWAlgaeDB目前包含来自于7个门204个物种的淡水藻类。其中,生物学特征信息来源于NCBI,公共数据库以及已发表的文献。基因组序列从NCBI下载,CDS及Protein序列一部分来源于NCBI已公布的文件(84个物种),另一部分来源于我们的基因预测(120个物种)。此外,我们对每个物种都进行了功能注释(NR,Swiss-Prot,GO,KEGG,COG和KOG),以帮助了解基因功能层面的信息。


真迈生物联合深圳市环境科学院开发淡水藻类基因组数据库——FWAlgaeDB,助力水生态环境保护!

图1 数据库中204个藻类物种的分类及丰度


02

数据库结构

FWAlgaeDB包括搜索模块、BLAST比对分析、基因组数据集(FWAlgae pool)/功能注释文件(annotation)模块,可以实现网站内的快速检索、相似性比对及基因组/注释文件的免费下载。


真迈生物联合深圳市环境科学院开发淡水藻类基因组数据库——FWAlgaeDB,助力水生态环境保护!

图2 数据库搭建流程图


搜索模块



FWAlgaeDB集成了一个智能搜索模块,可以帮助研究人员快速检索感兴趣的数据。FWAlgaeDB支持不同的搜索方法:①输入分类学术语检索(支持不同分类学水平,如纲,目,科,属等),网站会输出相应水平上的物种列表以供选择。研究人员确定目标物种后,可以点击并跳转到特定页面浏览、下载相关数据。②精确检索,通过物种的科学名称、数据库编号或NCBI分类号来精确检索物种信息。FWAlgaeDB使用模糊匹配算法,即使搜索字符串或拼写不完整,也可以根据潜在相关性输出搜索结果。


FWAlgae pool




展示204个淡水藻类的分类信息和基因组序列。淡水藻类的属和种按字母顺序排列在浏览界面上。每个物种都链接到一个特定的页面,包含其生物分类学信息、生活环境、NCBI登录号、地理分布、参考图片和相关文献,以及可下载的基因组序列。在本页面,研究人员可以下载相应的FASTA格式的基因组序列。此外,单击藻类名称将直接进入Annotation下载界面。


真迈生物联合深圳市环境科学院开发淡水藻类基因组数据库——FWAlgaeDB,助力水生态环境保护!

图3 FWAlgae pool界面展示


注释文件展示和下载




注释界面以表格形式呈现,研究人员可以单独选择或一键打包Genome、CDS、Protein和不同的数据库注释文件进行下载。为了更好地了解藻类基因组信息,我们还收集并注释了204种藻类的主要基因家族,包括ABC transport、细胞色素p450、转座酶、藻毒素基因簇等,供研究人员免费下载使用。本页内嵌的搜索工具也支持通过物种名称或数据库ID进行精确搜索。


真迈生物联合深圳市环境科学院开发淡水藻类基因组数据库——FWAlgaeDB,助力水生态环境保护!

图4 注释文件展示和下载界面


BLAST比对




FWAlgaeDB集成了BLASTN/BLASTP比对工具,研究人员能够将待查询序列(核苷酸或氨基酸序列)与整个数据库进行比对,并获得BLAST比对报告。研究人员可以在操作界面中粘贴FASTA序列或上传序列文件,快速搜索数据库中与待查询基因组或蛋白质序列相匹配的物种列表。数据库支持BLASTN、MEGABLAST和Discontiguous MEGABLAST比对,且可以使用高级命令行参数对搜索进行优化。


真迈生物联合深圳市环境科学院开发淡水藻类基因组数据库——FWAlgaeDB,助力水生态环境保护!

图5 BLAST比对分析展示



03

水库样本验证FWAlgaeDB的适用性

为了验证FWAlgaeDB的有效性,我们使用GenoLab M平台对10个水库水体样本进行了宏基因组测序,将测序得到的reads在FWAlgaeDB和NT藻类数据库中进行物种注释的分析和比较。


基于NT藻类数据库进行物种鉴定时,获得了极其庞杂的物种鉴定结果,且需要进一步区分是否是淡水藻类,后续的识别过程将极为复杂。NT数据库获得的海量数据可能会分散研究人员的注意力,并模糊一些重要信息。而基于FWAlgaeDB鉴定得到的物种,相对更为集中,且确定都是淡水来源的藻类。


另外,在NT数据库中检测到几个公认的海洋藻类物种(图中橙色标记),这是令人费解且无法解释的。因为样本来源于淡水水库,理论上不存在海洋种类。这些潜在的假阳性表明,FWAlgaeDB是鉴定淡水样本中藻类物种的更优选择。当然,如果要对这些假阳性物种进行确切的鉴定,还需要进一步的湿实验验证,如藻类分离、培养和PCR鉴定。

真迈生物联合深圳市环境科学院开发淡水藻类基因组数据库——FWAlgaeDB,助力水生态环境保护!

图6 FWAlgaeDB和NT藻类数据库对10个水库样本藻类物种鉴定的比较


真迈生物联合深圳市环境科学院开发淡水藻类基因组数据库——FWAlgaeDB,助力水生态环境保护!
结论

基于上述分析,我们得出如下结论:

1、FWAlgaeDB是目前第一个专门针对淡水藻类的基因组数据库,包含204种淡水藻类的生物学特征及基因组信息,可助力水生态环境相关研究的开展;

2、FWAlgaeDB可以实现BLAST相似性比对及淡水藻类物种鉴定,且数据库中所有信息文件都提供开源、免费的下载;

3、相对于NT数据库,FWAlgaeDB更适合淡水样本的藻类物种鉴定。

相关推荐
基于GenoLab M的全基因组测序揭示假单胞菌降解全氟羧酸的生物学机制
文章梗概真迈生物用户俄罗斯科学院乌法联邦研究中心在国际期刊——toxics上发表题为“Biodegradation Potential of C7-C10 Pe...
基于GenoLab M的肿瘤液体活检单细胞样本制备方法优化
文章梗概2023年8月,真迈生物用户俄罗斯科学院托木斯克国家研究医学中心癌症研究所的Anastasia Frolova博士在国际刊物Bulletin of Ex...
全基因组测序揭示益生菌制剂对抗霉菌毒素的机制
文章梗概真迈生物用户俄罗斯南部联邦大学在Agriculture期刊上发表题为“Development of Synbiotic Preparations Tha...
系统评估测序平台与分析软件对肿瘤Panel检测的影响
文章梗概近日,真迈生物与合作单位上海交通大学医学院附属第一人民医院在Frontiers in Genetics的Genomic Assay Technology...