正如我们在本系列的上一篇博文中所讨论的那样,测序蛋白质和结构解析蛋白质之间存在很大差异。这可以归因于这样一个事实:在过去的几十年里,蛋白质测序的成本已经大幅下降,而通过实验确定蛋白质结构仍然是一项昂贵的工作,依赖于昂贵且易出错的实验装置。此外,除了天然蛋白质序列外,由于在生物技术环境中合成的蛋白质,(稳定)蛋白质的空间也在显著增长。 上一篇博文表明,AlphaFold 开创的计算机蛋白质预测改变了游戏规则,使蛋白质结构变得唾手可得 [1]。
在这篇博文中,我们将深入探讨蛋白质结构预测的微妙之处,并展示 Alphafold 和竞争对手缺乏准确性的一些有趣之处。通过将结构预测与基于物理的方法相结合,可以克服这些限制。随后,我们将揭示蛋白质结构的可用性如何与机器学习的最新进展相结合,加速蛋白质的功能注释。
蛋白质结构的物理规则
从蛋白质序列开始确定 巴林手机数据 蛋白质功能特征的计算机模拟流程极大地受益于结构信息的增加。事实上,蛋白质结构对其功能有影响,显著的例子是蛋白质结合特性和机械稳定性。然而,从蛋白质结构确定功能特性仍然是一个不小的问题。AlphaFold 在其最新版本之一中引入了AlphaFold-Multimer [2],这是一种用于预测蛋白质复合物结构的专用模型。虽然这是蛋白质-蛋白质结合方向上具有影响力的一步,但问题仍然具有挑战性(尤其是对于抗体而言),并且仅限于结合姿势预测。为了量化蛋白质-蛋白质复合物的结合亲和力,仍然需要基于物理的方法,例如分子动力学。
另一个功能特性是机械稳定性。AlphaFold 和其他结构预测工具可以根据蛋白质的序列表示预测原子坐标。然而,这种观点并不完全符合现实,因为蛋白质是嵌入溶剂中的大分子,其行为受原子相互作用和温度影响决定的物理运动方程约束。实际上,蛋白质不是刚体,而是分子的柔性组合。同样,分子动力学模拟可以捕捉这些动态。 最近的观察将 AlphaFold 预测的质量指标 与机械不稳定性联系起来 [3,4]。具体来说,AlphaFold 的 pLDDT 和 PAE 指标已被观察到与所讨论蛋白质的局部和整体灵活性相关。尽管 AlphaFold 从序列开始预测静态结构,但这些质量指标也暗示了蛋白质的动态特性。