2026年5月7日,人工智能学院青年科研B组在知新楼302召开例行学术会议,本次会议由宫老师担任主讲人,围绕PPInterface数据集的构建方法、结构特征及其在深度学习建模中的潜在应用进行专题讲解与讨论。

图为例会讨论现场
宫老师首先介绍了PPInterface数据集的构建方法与核心技术细节。该数据集由Koç大学计算科学与工程团队于2024年发表在Journal of Molecular Biology上,从约21.5万个PDB条目中系统性提取了815,082个界面结构。在数据处理层面,采用8.5埃(Å)距离截断阈值定义界面残基:当一条链的重原子与另一条链的重原子距离小于8.5Å时,将该残基标记为界面残基并作为图的节点。边特征方面,采用距离归一化函数将残基间最小原子距离转换为交互强度特征,其计算公式为:
e_ij=tanh(-x²+2)+1
其中x为两个残基之间的最小距离(单位:Å),e_ij的取值范围为[0,1.96],在距离增大时趋近于0,在距离为0时达到最大值1.96。
宫老师重点讲解了蛋白质界面的图表示方法及其在图神经网络中的应用框架。在DeepRank-GNN框架中,蛋白质界面被建模为两类子图:界面图(Interface Graph)连接来自不同蛋白质链的界面残基,内部图(Internal Graph)连接同一蛋白质链内的相邻残基。这种双图结构设计使模型能够同时捕获分子间的相互作用信息与分子内部的结构偏好信息。节点特征包括残基类型的one-hot编码(20维)、电荷(1维)、极性(4维one-hot)和埋藏表面积BSA(1维)等,共计26维默认特征向量。框架采用图交互网络(GINet)作为核心架构,在每个卷积步骤中分别对界面图和内部图执行独立的图卷积操作(GCL),经ReLU激活和池化层后,通过均值池化将两个子图的图级表示合并,再经两层全连接层输出最终预测结果。
在下游任务方面,宫老师介绍了两类典型基准测试任务:一是对接姿态评分回归任务,以原生接触分数f_nat为标签值,采用均方误差(MSE)作为损失函数,在BM5基准数据集上AUC达到0.94;二是生物界面与晶体界面的二分类任务,采用交叉熵损失函数,准确率达到82%。两类任务均使用Adam优化器,学习率设为0.001,批量大小为128。宫老师特别指出,相比基于CNN的DeepRank方法,GNN方案无需数据增强即可实现旋转不变性,图生成速度提升约20倍(0.65s vs 12.4s),存储空间缩减约22倍(0.14MB vs 3.07MB),训练速度提升约25倍,充分体现了图神经网络在三维结构学习中的计算效率优势。
一、会议讨论
与会成员围绕以下几个方面展开了深入讨论。首先,关于PPInterface数据集的规模优势与深度学习应用潜力,大家认为81.5万个界面结构为训练大规模图神经网络模型提供了充足的数据基础,但也讨论了数据质量问题——PDB中存在部分低分辨率结构,如何在数据预处理阶段有效筛选和清洗是影响模型性能的关键因素。其次,关于图神经网络的架构选择,有老师提出E(3)-等变图神经网络在分子动力学模拟中已取得较好效果,未来可探索将等变卷积引入蛋白质界面分析,进一步提升模型对三维旋转和平移的不变性。第三,关于节点特征的工程化设计,讨论了是否可以引入预训练蛋白质语言模型(如ESM-2)的嵌入向量作为额外节点特征,以增强模型对残基上下文语义的捕捉能力。宫老师对此表示肯定,并建议在后续工作中结合对比学习范式,利用PPInterface的大规模界面数据构建自监督预训练任务。
二、会议总结
宫老师对本次例会进行了总结。PPInterface作为目前最全面的蛋白质界面三维结构数据集,为基于深度学习的蛋白质相互作用研究提供了重要的数据基础设施。从深度学习技术角度看,将蛋白质界面转化为图结构并采用图神经网络进行表征学习,是当前该领域的主流技术路线。关键要点包括:(1)通过8.5Å距离截断定义界面残基节点,利用归一化距离函数构建边特征;(2)采用双图结构(界面图+内部图)分别建模分子间和分子内信息;(3)GINet架构通过双路图卷积实现特征提取与融合,在全连接层后输出预测结果;(4)在回归任务中采用MSE损失函数,在分类任务中采用交叉熵损失函数,均使用Adam优化器进行端到端训练。宫老师建议小组成员结合各自的研究方向,思考如何将图神经网络方法迁移到通信网络拓扑分析、传感器网络优化等相关课题中,探索跨领域的深度学习方法创新。下次例会将由下一位老师继续分享相关研究进展。

