研究揭示:蛋白质结构域与蛋白质组大小之间存在定量关系
研究揭示:蛋白质结构域与蛋白质组大小之间存在定量关系
在五个已测序的真核生物基因组中,研究发现许多保守的蛋白质结构域以与蛋白质组大小成恒定比例的方式出现。这一发现不仅揭示了蛋白质组复杂性的核心机制,还为理解生物进化和功能多样性提供了新的视角。
蛋白质中的保守结构域在蛋白质相互作用、DNA结合、酶活性等重要的细胞过程中起着关键作用。由于最近发布的关于人类基因组中基因数量的预测少于之前的许多人的预测,蛋白质结构域之间的相互作用可能被证明是蛋白质组复杂性的核心。
蛋白质结构域在许多物种中通常是保守的,因此,它们提供了一个有趣的数据集,用于分析基因组如何保持与其他保守结构域相关的任何给定结构域,以及分析保守结构域的发生与蛋白质组大小的关系。许多群组都试图找到、记录和注释这些保守的域。
虽然大多数组使用一种隐藏的马尔可夫模型来进行分析,但每个组都以一种独特的方式处理这个问题,产生了广泛的数据库,可以用来相互验证。
在这项研究中,使用SMART CD数据库来收集每个基因组中包含每个保守结构域的基因数量的数据。这项研究仅限于目前已测序的5个真核生物基因组:智人、黑腹果蝇、拟南芥、秀丽隐杆线虫和酿酒酵母。结果通过一个称为蛋白质组分析数据库(这里简称为PAD)的数据库存储库进行确认。PAD在其他7个数据库中包含SMART CD。在每个案例中,研究仅限于那些在所有五个基因组中至少出现一次的保守域。
我们可以比较不同基因组之间的保守域,并通过使用数据库存储库(PAD)和该组中的一个数据库(SMART)来验证该方法。具有给定保守结构域的基因数量与每个基因组中的基因总数之间存在密切的联系。
实验方法
数据收集方法如下:编写了一个PERL脚本,向SMART数据库提交请求的数字每个基因组中每个具有519个保守结构域的基因。PAD中的信息已经出现在人类中200个最常见的保守域的基因组特异性列中,并被直接下载。每个基因组的信息都被解析和存储起来。
从SMART数据库中,选择211个保守域,因为它们在5个基因组中至少出现了一次。从PAD中,我们选择了122个保守结构域,因为它们在5个基因组中至少出现了一次。
假设:基因组1中具有给定保守结构域(CD)的蛋白质的=和;基因组2中具有给定CD的蛋白质的=和;基因组1中预测基因的=和;基因组2中预测基因的=和,然后平均得出方式1:A/E ≈ B/F
通过重新排列方程我们注意到,对于许多保守域,每个基因组中包含给定保守域的基因数量的比例准确地反映了每个基因组预测的基因总数的比例。或者,给定公式1中的变量,那么平均而言得出方式2:A/B ≈ E/F
为了使数据正常化,使用基因组中给定保守域的基因和与基因的和的比率在所有五个基因组中给定的保守结构域。这是为了最小化预测的基因数量可能是显著错误的影响,而其他基因组可能更准确。
方程1被重写以反映这种归一化。假设基因组1中有给定CD的A=和蛋白质;G=和5个基因组中有给定CD的蛋白质;E=和预测基因组1中的基因;H=和预测所有5个基因组的基因,然后平均:A/G ≈ E/H
每个基因组的每个公式3比率范围内的保守域的总和被图形化地描述出来。计算每个基因组的平均比率,并将所有5个基因组的预测基因总和相乘,得到一个接近每个基因组中预测基因数量的数字。
公式2可以用来预测一个基因组中的总基因,因为其他变量都是相当众所周知的,如从表达序列标签(EST)数据。更重要的是,这表明这些保守域可能由于相互作用域的功能约束而保持在这个比例中。这一比例在所有5个真核生物基因组中都保持得相当好,这一事实证明了它的潜在重要性。
虽然在不同基因组的基因总数上存在很大分歧,但对已发表的5个真核生物基因组都采用了类似的基因发现方法。因此,可以假设,随着明确每个基因组的基因数量,基因组之间预测基因的比率将与目前的比率相似。
同样地,SMART和PAD都没有声称在每个基因组中发现了每个保守结构域的所有出现。然而,由于类似的策略被用来寻找不同基因组中的保守域在数据库中,随着基因预测的改进,每个基因组中具有给定保守域的总基因的比例可能保持接近不变。
这项研究的一个有趣的发现是,智人的比率,拟南芥和酿酒酵母与每个生物体的总预测基因关系密切相关,这两个数据库都给出了一个峰值比率,以交换总预测基因数之间黑腹果蝇和秀丽隐杆线虫。从图中可以看出,是离群保守域比率导致表1中的平均值更接近实际预测的基因总数秀丽隐杆线虫。
虽然这种交换目前还无法解释,但它可能为基因组和仍未识别的基因之间的区别提供见解。值得注意的是,通过主要分析最频繁发生的保守域,在每个基因组中只出现一次的保守域在大多数情况下被排除在分析之外。
研究表明,在目前测序的5个真核基因组中,蛋白质的保守结构域以蛋白质组特异性比例保持。造成这一比例的原因尚不清楚,但怀疑这些蛋白质结构域的功能相互作用要求它们保持在一个特定的比例也不是不合理的。进一步的研究可能会揭示,这一比例之外的保守结构域对生物体的独特功能至关重要,这对于理解这一比例在真核生物基因组中的原因和普遍性是必要的。
材料和方法
在SMART数据库中搜索5个基因组中至少出现一次的保守域。对于PAD,搜索仅限于那些在人类中发生的前200个域中列出的保守域,而在其他四个域中至少有一个出现基因组。这种将研究限制在更全局的保守域的策略是用来增加正确构建保守域的机会,并增加结果的统计可靠性。
每个基因组的预测基因总数为:智人,35000;黑腹果蝇,14,100 ;拟南芥,26000;秀丽隐杆线虫,19100;酿酒酵母,6300。这5个基因组共有100500个基因,共39500个基因黑腹蝇,只有秀丽隐杆线虫和酿酒酵母。每个基因组中的基因数量是近似的,因为它是一个不断更新的估计值。
SMART_CDs.txt是一个文本的,以制表符分隔的文件,包含本研究中使用的SMART数据库中的所有211个保守域名。对于每个保守域名,列出每个基因组中包含保守域的相应基因数量。PAD_CDs.txt是一个文本的,以制表符分隔的文件,包含本研究中使用的PAD中域的所有122个InterPro条目编号。对于每个InterPro条目号,列出了每个基因组中包含保守结构域的相应基因数量。
结论
在五个已测序的真核生物基因组中,许多保守的结构域以蛋白质组大小的恒定比例出现。这就提出了一种可能性,即由于相互作用域的功能限制而保持这个比例。该比率在5个真核生物基因组中的普遍性证明了其潜在的重要性。