新闻网讯 4月2日,物理学院生物物理团队闫成飞副教授课题组在蛋白质互作预测研究上取得进展,相关工作以“蛋白质语言模型嵌入几何图助力蛋白质互作残基接触预测(Protein language model-embedded geometric graphs power inter-protein contact prediction)”为题,在生命科学综合性期刊eLife上发表。物理学院博士生司运达(已毕业)为论文第一作者,闫成飞为通讯作者,华中科技大学为该工作的唯一完成单位。
蛋白质是生命过程中执行功能的主要分子,生命体内大量蛋白质间通过物理互作形成具有特定空间构象的复合物来执行功能,鉴定生命体内的蛋白质互作以及建模其复合物结构对于生命科学研究具有重要价值。准确的预测蛋白质间的残基接触可为鉴定蛋白质互作和建模复合物结构提供关键信息,因此,蛋白质间残基接触预测问题作为计算生物物理领域的一个经典问题,受到了广泛的关注。此前的蛋白质间残基接触预测模型主要基于蛋白质间的共进化信息,然而,由于蛋白质间的共进化信息较难准确提取,仅基于共进化信息的预测方法往往精度非常有限。在之前的工作中,我们基于蛋白质语言模型表征中隐含蛋白质间的共进化信息这一猜想,将蛋白质语言模型表征引入蛋白质互作残基接触预测中,发展了基于蛋白质语言模型表征的蛋白质互作残基接触预测模型DRN-1D2D_Inter,结果显示蛋白质语言模型表征的引入显著提高了模型的预测准确性(Si and Yan, Briefings in Bioinformatics 24, bbad0329, 2023)。
图1.PLMGraph-Inter模型框架
蛋白质语言模型表征的引入虽然显著提升了模型的性能,但其整体的预测精度仍具有较大的提升空间。影响预测精度的一个关键原因是蛋白质语言模型表征主要编码的是蛋白质的进化信息,而现阶段大量蛋白质不具有充足的进化信息。基于蛋白质互作遵循物理规律,其互作很大程度上是由蛋白质的单体结构及其物理性质所决定的,我们设计了平移、旋转不变、且同时编码了蛋白质结构内原子间距离和方向信息的几何图,并通过该几何图整合蛋白质序列、多序列比对和结构的语言模型表征,发展了基于蛋白质语言模型嵌入几何图的蛋白质互作残基接触预测模型PLMGraph-Inter (Si and Yan, eLife 12: RP92184, 2024)。测试结果表明,该模型预测性能大幅优于此前的模型,包括我们之前发展的DRN-1D2D_Inter模型。消融实验结果进一步证实我们所构建的蛋白质语言模型嵌入几何图表征可作为一种有效的蛋白质表征方式用于蛋白质互作预测相关问题。
表1:PLMGraph-Inter与其他模型预测性能的比较
图2.消融实验结果
该研究发展了一套基于蛋白质语言模型嵌入几何图的蛋白质互作残基接触预测模型,其性能大幅优于此前的模型,该结果体现了蛋白质语言模型表征与蛋白质几何图结合的有效性。该模型将为团队进一步整合蛋白质的物理和进化信息来发展准确的蛋白质互作预测和建模方法提供基础。
全文网址:https://elifesciences.org/articles/92184