问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

小白向·蛋白质结构预测到底在做什么?

创作时间:
作者:
@小白创作中心

小白向·蛋白质结构预测到底在做什么?

引用
CSDN
1.
https://blog.csdn.net/yaoyao2024/article/details/143895838

0、前言

本文主要面向AI领域的读者介绍蛋白质结构预测的基础知识。文章从氨基酸、残基、蛋白质的基本概念入手,逐步深入到蛋白质的1级结构(序列)和3级结构(空间结构),并详细介绍了PDB数据库、接触矩阵等专业概念。

氨基酸是含有碱性氨基和酸性羧基的有机化合物,是组成蛋白质的重要小分子。一个氨基酸的结构通式如下图:

在氨基酸的常见结构中,主要关注的是α-碳(图中标记为Cα的碳原子),它是氨基酸的中心碳原子,连接氨基、羧基、氢原子和侧链基团(R基团)。

  • 氨基(-NH₂):氨基是一个碱性基团,能接受质子(H⁺),在生理 pH 条件下通常带正电荷。它是氨基酸的特征性基团之一,赋予氨基酸一定的碱性性质。
  • 羧基(-COOH):羧基是一个酸性基团,在生理 pH 条件下可以解离出质子(H⁺)而带负电荷。它也是氨基酸的重要特征基团,使氨基酸具有酸性性质。(这个地方的碳原子叫做贝塔碳)
  • 氢原子(-H):连接在中心碳原子上的氢原子。
  • 侧链基团(R 基团):这是氨基酸之间差异的关键所在,不同的氨基酸具有不同的 R 基团,R 基团的结构和性质决定了氨基酸的种类和特性。

总体而言,对于氨基酸的基本结构和性质,α-碳是核心,而贝塔碳等在特定情境下才会被提及和关注。蛋白质的主链通常被称为骨架(backbone),它由一系列连接在一起的氨基酸残基组成。一个氨基酸对应一个骨架(backbone) :

蛋白质是由氨基酸通过肽键连接而成的聚合物。在形成肽键的过程中,每个氨基酸会脱去一分子水,剩余的部分就是残基。可以这样理解,氨基酸是构建蛋白质的“基本砖块”,当这些“砖块”(氨基酸)按照特定顺序连接起来时,它们在连接过程中发生了化学变化(形成肽键并脱水),变化后每个氨基酸所剩余的组成蛋白质部分就是残基,众多残基共同构成了蛋白质分子。所以说残基是蛋白质分子的组成单位,它是从氨基酸经过聚合反应后的状态来描述蛋白质组成的。例如,一条由多个氨基酸组成的多肽链,链上的每个部分(对应每个氨基酸脱水后的剩余部分)就是残基,它们共同决定了蛋白质的结构和功能等特性。

为了方便理解,一个完整独立的氨基酸分子可以看成是一个完整的基,2个氨基酸分子脱水缩合后,每一个氨基酸都不再完整,所以可以看成是不完整的,即是残基。

人体中常见的20种氨基酸一栏如下图:

在蛋白质结构预测中,对氨基酸种类的预测也是很关键的一步。对于了解过计算机视觉中目标检测方法同学来说,它就相当于去预测目标的类别,当然位置也是必不可少的。只不过在蛋白质结构的预测中,是以一个个三维坐标系下的原子来表示的,所以我们要预测一个个原子的位置(三维坐标系下点的坐标)。

蛋白质是生命的物质基础,是有机大分子,由残基(残缺氨基酸)构成,是构成细胞的基本有机物,是生命活动的主要承担者。没有蛋白质就没有生命。来一图片更直观的看一看蛋白质什么样子吧!就拿我目前做实验用的β-半乳糖苷酶(6cvm),他们在三维空间中大概是这个样子的:

本节介绍了一些最基础的基本概念,我们需要知道:氨基酸—脱水缩合–>残基---->蛋白质。有这么一个概念就可以了。接下来会介绍具体介绍蛋白质方面的知识。

接下来我会用一条PDBID为1F88的蛋白质为例子,来解释什么叫蛋白质接触矩阵。

Protein Data Bank(以下简称PDB,https://www1.rcsb.org/)是当今全世界最具公信力的蛋白质数据库之一,每一条蛋白质都有唯一标识,称为PDBID(类似每个人都有自己的身份证号,唯一标识),比如PDBID为1F88的蛋白质在PDB中如下:

虽然我们有了 PDB 数据库,但仍然需要进行蛋白质结构的预测,原因主要有以下几点:

  1. 已知结构的蛋白质相对较少:尽管蛋白质序列数据库的数据积累速度非常快,但目前已知结构的蛋白质数量仍然有限。PDB 数据库虽然包含了大量的蛋白质结构数据,但与快速增长的蛋白质序列数量相比,差距依然很大。
  2. 结构测定技术复杂且代价高:通过实验方法(如 X 射线晶体学、核磁共振、电子显微镜等)确定蛋白质结构的过程非常复杂,需要耗费大量的时间、资金和资源,而且并非所有蛋白质都适合用这些方法进行结构测定。
  3. 新蛋白质不断出现:随着 DNA 测序技术的发展,更多新的蛋白质序列被发现。这些新蛋白质的结构可能尚未被解析,需要通过预测来了解其结构和功能。
  4. 蛋白质结构预测具有重要意义:它有助于深入了解蛋白质的作用、功能机制以及与其他分子的相互作用,对于生物学、医学和药学等领域都非常重要。例如,在药物设计中,可以利用预测的结构信息来设计与目标蛋白具有特定结合模式的药物分子,提高药物研发的效率。
  5. 推动科学研究的发展:预测蛋白质结构的研究可以促进相关技术和理论的发展,为解决其他生物学问题提供新的思路和方法。

总之,PDB 数据库是非常重要的资源,但不能满足所有需求。蛋白质结构预测是必要的,它可以帮助我们更好地理解蛋白质的世界,为各个领域的研究和应用提供支持。

通过前面的介绍,我们对蛋白质这个三维结构有了一些了解。现在我们对最重要的对蛋白质最重要的两个维度的表示进行更深层次的讲解。

蛋白质的1级结构指的是其序列。在PDB中可以下到蛋白质的序列文件,如1F88的序列文件 rcsb_pdb_1F88.fasta 如下:

  • 第一行记录了该蛋白的信息
  • 第二行开始记录了该条蛋白质的序列,由一个个不同类别氨基酸构成。以这个1F88为例,序列中包含了348个氨基酸,说明- 1F88由348个氨基酸构成,所以1F88的长度为348。

我再贴一下氨基酸的缩写表,上图中的每一个字母,对应着下面的其中一个氨基酸。

虽然有氨基酸序列信息,但构建原子结构仍然是必要的,原因如下:

  1. 从序列到结构的差距
    氨基酸序列仅提供了蛋白质组成的一维信息,而蛋白质的功能主要由其三维结构决定。仅仅知道氨基酸序列,无法直接了解蛋白质在细胞内的实际折叠方式、各个原子在空间中的具体位置以及它们之间的相互作用关系。例如,一条线性的氨基酸序列如何折叠成具有特定功能的三维结构是非常复杂的过程,这中间存在着巨大的信息差距,构建原子结构就是为了填补这一差距,从而深入理解蛋白质的功能机制。

  2. 功能与结构的紧密关联

  • 酶的催化活性:酶是一类重要的蛋白质,其催化化学反应的能力高度依赖于精确的三维结构。活性位点中特定氨基酸残基的原子排列决定了底物的结合方式和催化反应的进行。如果仅知道氨基酸序列,无法确定活性位点的精确构象,也就无法理解酶的催化机制。通过构建原子结构,可以清晰地看到活性位点的原子组成、它们之间的距离和角度等关键信息,进而解释酶如何特异性地识别底物并加速化学反应。
  • 蛋白质 - 蛋白质相互作用:许多生物学过程涉及蛋白质之间的相互作用,如信号传导通路中蛋白质之间的结合。在这些相互作用中,蛋白质表面的原子相互接触、形成特定的相互作用界面。构建原子结构能够揭示这些相互作用界面的细节,包括哪些原子参与了相互作用、它们之间的化学键类型和距离等,有助于理解蛋白质如何在细胞内协同工作,以及这些相互作用的调控机制。
  1. 结构信息对其他研究的支持
  • 药物研发:在药物设计中,了解药物靶点蛋白的原子结构至关重要。药物分子需要与靶点蛋白的特定区域(通常是一个口袋或凹槽)结合,以发挥治疗作用。通过构建原子结构,可以精确地确定这些潜在的结合位点,为设计能够特异性结合靶点蛋白、具有高亲和力和低毒性的药物分子提供关键信息。基于结构的药物设计方法能够大大提高药物研发的效率,减少盲目性。
  • 疾病机制研究:许多疾病与蛋白质结构和功能的异常有关。例如,某些基因突变可能导致蛋白质结构发生改变,进而影响其功能,引发疾病。构建原子结构有助于揭示这些结构异常的本质,理解突变如何影响蛋白质的折叠、稳定性以及与其他分子的相互作用,从而为疾病的诊断、治疗和预防提供理论基础。

2级结构我不关心,这里不做阐述。蛋白质的3级结构即空间结构。空间结构中包含了接触信息。那么蛋白质的3级结构如何获得?表示?怎么解读呢?一部部来。

3级结构就是空间结构。空间中每一个氨基酸集团由若干个原子构成。每一个原子都会有自己的唯一确定的三维坐标由(x,y,z)表示。

以1F88蛋白质为例,1F88的3级结构用文件 1F88.pdb (还有 .cif 也是表示三维结构下蛋白质的原子模型)来描述。该文件可以在PDB中下载到如下:

1F88.pdb文件打开后,文件的前半部分有大量的序列信息,我们不关心,我们只关心他的3维结构信息,从第一行为 ATOM开头的行开始,就是记录了坐标信息如下:

红框中表示MET(在一级序列中,简称M)氨基酸由编号1~9个原子构成,第三列为每一个原子的名称(共9个,分别为N原子、CA原子、C原子、O原子、CB原子、CG原子、SD原子、CE原子、N原子)
蓝框中的三列分别对应了三维坐标中的x,y,z。如CA原子的三维坐标为(44.718,-5.054,-26.911)

在知道了每个原子的三维坐标后,我们可以在坐标系中,把每一个原子都标记出来,这样就得到了蛋白质的三维结构的空间图,如1F88序列经过PDB文件的坐标解析后,用 ChimerX 软件打开可以看到他的结构如下:

先通俗的说,什么叫接触。比如你和我都走在马路上,你在马路对面走着,我在马路另一边走,我们俩之间的距离很远。我可能都不会注意到有你这么个人,我并不在乎你在干嘛,你是谁,你要去哪里,我对你根本没有反应,因为,我们之间距离很远。

相反,如果你和我之间距离过近,都贴到我脸上来了,我肯定会对你有所反应,我会心想你这人干啥呢,离我这么近,你想干嘛,甚至下意识想推开你,说明我因为我们之间距离过近,让我对你产生了反应。

所以,蛋白质残基接触的定义就是空间中2个氨基酸集团的Ca原子(一般用Ca原子来计算接触)的空间距离小于8Å(Å是距离单位)的时候,我们认定这两个氨基酸是处于接触contact状态。

接下来,继续用1F88这条蛋白质来距离。提问:1F88序列中,处在第一个位置的MET氨基酸和第二个位置的ASN氨基酸 他们是接触还是不接触的呢?

答案:我只需要将pdb坐标文件中2个氨基酸集团中的CA原子分别取出来,然后用空间距离计算公式,计算一下结果便可以得知结果。

Step1 MET_Ca的坐标为(x1,y1,z1)=44.718,-5.054,-26.911。ASN_Ca的坐标为(x2,y2,z2)=44.449,-4.763,-23.103。

Setp2 代入空间中两点距离公式求这俩坐标之间的距离d。

∣ P 1 P 2 ∣ = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 + ( z 1 − z 2 ) 2 \mid P_1P_2\mid=\sqrt{\left(x_1-x_2\right)^2+\left(y_1-y_2\right)^2+\left(z_1-z_2\right)^2}∣P1 P2 ∣=(x1 −x2 )2+(y1 −y2 )2+(z1 −z2 )2

出距离d为70.417122Å。远远大于8Å的距离阈值要求。所以这俩氨基酸在空间中不接触。

在知道什么是接触、接触如何计算之后,我们可以用矩阵的形式,来将一条蛋白质的接触信息展示出来。这个形式就是接触矩阵,或成接触图。

在接触矩阵M中,假设一条蛋白质序列的长度为L。那么这个接触矩阵的维度就是L*L,接触矩阵M是一个沿主对角线对称的矩阵。

矩阵中每一个元素的值要么是0要么是1。0表示不接触,1表示接触。我们可以用i和j来标识。比如一条长度为10的蛋白质,他的接触矩阵M的维度就是10*10。如那么第三行第六列为1。就表示该序列的第3个氨基酸与第6个氨基酸他们是接触的。

蛋白质的接触矩阵的意义 CASP是二年一次的蛋白质结构预测竞赛,在CASP竞赛中,有专门的的一项就是接触预测竞赛。那么接触的意义是什么? 通俗的说,接触就是一种约束,有了约束,会决定蛋白质在空间中的空间结构(为什么蛋白质的螺旋往左边倾斜,不往右边倾,就是有一种约束在其中作用),而空间结构决定了蛋白质的功能。有了功能能为药物开发等提供研究基础等。所以对接触进行研究是极具意义的。

未完待续…

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号