AlliumDB:葱属比较基因组学和功能基因组学数据库
AlliumDB:葱属比较基因组学和功能基因组学数据库
AlliumDB是一个专门针对葱属植物的比较基因组学和功能基因组学数据库,由青岛农业大学园艺学院开发。该数据库整合了大量基因组、重测序、转录组和表型数据,为葱属植物的研究提供了全面的数据资源和分析工具。
研究背景
2024年1月,青岛农业大学园艺学院在Horticulture Research上发表了题为"AlliumDB: A central portal for comparative and functional genomics in Allium"的文章,开发了葱属比较基因组学和功能基因组学数据库AlliumDB。葱属植物属于石蒜科植物,包括重要的经济作物,如洋葱、大蒜、大葱,用作蔬菜、香料和传统药材。随着基因组、重测序、转录组和表型数据的不断积累,对整合的葱属数据库的需求也在增加。ALLUMDB(https://allium.qau.edu.cn),是一个集成了公共和内部数据的功能基因组学中心。
研究结果
1. 数据库概述
AlliumDB是一个针对洋葱属的综合性功能基因组学平台,集成了基因组、基因功能注释、基因组变异、基因表达、蛋白质丰度、表型和比较基因组数据。目前,AlliumDB包含来自三个葱属物种的三个核基因组和89个葱属物种的227个细胞器基因组以及7个葱属物种的746个转录组深度测序(RNA-SEQ)数据库,420个测序或重新测序的数据库,从7篇文章收集的蛋白质组数据,1317张详细描述表型的照片,并从33个国家的423个种质中手动记录的9个性状的表型信息。
对于每个核基因组,AlliumDB提供多种功能的注释工具。总共有167,516,109,669和166,840个基因分别由Nr,Swiss-Prot和trEMBL数据库注释。此外,82,049个基因用GO注释;77,464个基因用KEGG注释;113,985个基因编码的蛋白质用Pfam注释;51,694个位点标注为非编码RNA(ncRNA)。
作者确定了134,570个基因与拟南芥同源基因是最佳匹配,并提供了三个葱属基因组和两个模式物种(拟南芥和水稻)中的21,254个同源组,同时作者确定了8,588,301对基因的共表达关系。AlliumDB中存储了多个基因家族,包括314个与味道相关的基因,8,099个编码转录因子或转录调节因子的基因,4,108个编码蛋白激酶的基因,以及1,518个细胞色素基因。在比较基因组分析,作者在三个葱属物种中发现了1018个共线区块。
图1.AlliumDB概述:(A)数据来源、内容和数据库建设;(B)数据库架构;(C)多样化的数据可视化。
2. 数据库功能
AlliumDB提供了一种便捷的方法来检索、分析和可视化来自葱属物种的基因功能和多组学数据。搜索、浏览、工具和下载功能设计为对用户友好的且带有超链接和动态图表的模式。
3. 搜索
搜索功能包括基因信息、功能注释、共表达网络、多组学数据和共线区块。通过使用特定的locus ID作为搜索输入,可以获得详细的基因信息;同时也允许输入染色体位置和关键字来检索相关基因,用户可以通过点击基因ID进入相关的基因信息页面;每个基因的信息页面都显示了它的位置、基因模型(在嵌入式JBrowser中)、转录本和蛋白质序列、在Nr、Swiss-Prot、trEMBL和拟南芥信息资源(TAIR)数据库中的最佳匹配、同源组、编码蛋白的Pfam结构域、GO和KEGG注释以及在不同组织中的表达模式;此外GO,、KEGG和Pfam搜索可以使用ID或关键字来检索具有相应注释的基因列表;GWAS页面以曼哈顿图和注释表的形式报告了单核苷酸多态(SNPs),这些SNPs与感兴趣性状有显著相关;三个葱核基因组片段中的共线区块可以通过染色体或基因ID进行搜索,点击配对ID显示每个基因对及其对应E值;SynVisio可用于不同类型的同源关系可视化,包括染色体间同源关系的hive plots、两个基因组间共线性的dot plots、以及识别信号强度的scatterplots。
4. 浏览
浏览功能提供对细胞核和细胞器基因组组装、转录组组件、基因家族,包括风味相关基因、转录因子和转录调控基因,蛋白激酶基因和细胞色素基因;ncRNA家族、特定组织基因;蛋白质组数据以及JBrowse基因组浏览器和种质信息;核基因组浏览页面提供了对该物种及其已公布的基因组组装的介绍。对于每个基因组组装提供了链接来搜索与该基因组相关联的基因信息。细胞器基因组可以通过生物体、基因组名称、大小、GenBank号、作者、序列和图形图进行浏览;对于每个转录组组装提供提供了链接来搜索给定的单一基因的注释和表达;在基因家族(转录因子和转录调节基因、蛋白激酶基因和基因)和Rfam页面上,用户可以选择物种名称以访问该物种中的亚家族和基因成员的列表;在组织特异性基因页面上,在组织特异性基因页面上可以为自定义搜索设置Tau指数的截止点;数据库中的所有基因ID都有超链接,用户可以直接跳转到基因信息页面。蛋白质组页面显示了相关的已发表文章和蛋白质信息;所有可用的基因组和基因模型都被导入到JBrowse,并包含多组学数据,包括具有单碱基分辨率的表达水平和变体。
研究人员收集了世界各地的葱属种质用于表型调查,并计划在表型记录和照片可用时持续上传至AlliumDB;种质浏览页面显示了每个条目和种质来源,并附有相关网页超链接;更详细信息页面,包括照片和人工收集的性状,可通过点击种质ID访问;还提供了按表型查询种质资源的检索表格。研究人员正在生成这些种质的重测序数据,并在AlliumDB中更新相关基因型和表型。
图2.AlliumDB中的种质信息模块:(A)种质页面截图;(B)种质详细信息页面的屏幕截图;(C)显示“DC040”来源的屏幕截图;(D)表型搜索后的种质结果截图;(E)AlliumDB表型记录摘要。
5. 工具
Tools功能包含几个方便实用的在线工具,用于显示和分析数据,包括BLAST、富集分析、motif分析、热图和序列获取;BLAST接口存储了组装的葱属和拟南芥的基因编码序列和蛋白质序列;热图工具可以接收基因ID列表作为输入,以绘制相应的热图曲线。Sequence Fetch Tool可用于获得编码序列、蛋白质和基因的FASTA格式序列;查询基因上游的1kb、2kb或3kb序列以及来自染色体上某个位置的序列;基序分析允许用户通过将序列粘贴到文本框中或通过上传FASTA文件来扫描和发现感兴趣的序列中的基序。工具功能中的每个分析都将提供一个作业ID,使用户能够使用结果查看功能重复查看结果,并且可以从分析结果页面下载输出文件。
6. 下载
提供了快速下载链接,可以下载AlliumDB中的资源供个人使用。
7. 案例研究:用AlliumDB进行CYP75B的功能和保守性分析
CYP450是植物中最大的酶蛋白家族之一,能催化多种反应,包括结构大分子、信号分子、色素和防御化合物的生物合成,研究人员预测了葱属中编码CYP450的所有基因,并将结果存储在AlliumDB中(图3A);葱茎中富含类黄酮类化合物,具有抗氧化、抗癌、降血脂、抗糖尿病、心脏保护、神经保护和抗菌活性,CYP75B是CYP450家族的成员,催化类黄酮B环的3-ʹ-羟基化反应,在洋葱中通过BLAST搜索确定了12个CYP75B1成员,其中11个包含P450结构域(图3B)。在bit-score最高的基因的基因信息页面中,其功能注释基于Nr、Swiss-Prot、tembl、tair以及GO和KEGG注释数据库中的最佳直系同源匹配。这些结果表明,该基因的功能注释是高度可靠的。OrthoFinder预测的大葱同源序列为。基因和具有相似基因结构,在叶鞘中优先表达,说明这两个基因可能具有一定的保守性。
作者检索了的共表达网络,分析了其可能的生物学功能和该基因的调控网络(图3J),共鉴定了29个与共表达的基因,这些基因在鳞茎(图3K)和假茎(叶鞘)中优先表达。这些共表达的基因通常与GO条目中的“类黄酮生物合成过程”和“类黄酮代谢过程”相关,这与拟南芥中的催化功能是一致的(图3L)。在29个与共表达的基因的STRING网络中,作者检测到了8个同源基因,强调了共表达网络的高置信度。此外,作者还比较了与其同源基因在大葱中的共表达网络,其编码蛋白与编码蛋白同源性为96.1%。在与共表达的29个基因中鉴定出了13个同源基因,这表明的共表达网络在洋葱和大葱之间是保守的。
此外,共表达网络丰富了与色素、黄酮类、苯丙烷和花青素的生物合成和代谢有关的GO条目,影响其他物种的色素生物合成,在WD-Repeat-bHLH-MYB复合体中是花色苷积累的重要调节因子。AcB2在序列上与编码的蛋白质相同,它与AcMYB1相互作用,诱导洋葱鳞茎上皮细胞中花青素的积累。这些发现表明,这些共表达的转录因子基因可能调节类黄酮的生物合成,以影响球茎的颜色。此外,和分别是和的直系同源基因,并与在大葱中共表达。这一发现表明,与洋葱相比,WRKY和bHLH在大葱中可能起到类似的调节作用。由此可见,AlliumDB基于大规模转录组数据集成的共表达网络因此为功能和调控研究提供了新的见解。
总结
AlliumDB包含了最全面的基因组、序列注释、基因组比较、基因组变异、转录组、蛋白质组和表型,这些数据来自世界各地的多个葱属物种。这些重要而丰富的数据集可以帮助研究者通过探索基因组、变异、基因表达和表型来了解基因功能和分子机制,有助于制定未来最佳的育种策略。