DNA与蛋白质相结合是生物学中许多关键生物过程的基础,包括DNA转录、复制、表达等环节。转录因子是一类特殊的DNA结合蛋白质,它们通过与特定的DNA序列(基序)结合,调控基因的转录过程。因此二者的相互作用是维持生物体遗传信息传递的关键一步,现有一些计算方法主要分为从基于序列角度和结构角度来预测二者的结合位点,基于序列的模型如BindN使用了几种氨基酸属性作为序列特征,并通过支持向量机(SVM)对结合残基进行分类。基于结构的方法如GraphBind利用图神经网络(GNN)来提取蛋白的序列和结构特征,并以此来识别蛋白质分子中哪些氨基酸残基与核酸的结合位置。然而基于结构的方法需要准确的蛋白质结构作为模型的输入,因此,目前基于蛋白质序列的DNA结合位点的预测仍然是一个具有挑战性的问题。
田博学课题组于2024年1月在Briefings in Bioinformatics杂志中发表了题为“Protein-DNA binding sites prediction based on pre-trained protein language model and contrastive learning”的研究论文,提出了CLAPE模型用于预测蛋白质‑DNA结合位点。CLAPE包含三个核心模块,序列嵌入模块是根据ProtBert的预训练语言模型生成蛋白质序列表征。主干提取模块通过MLP, CNN等模型提取深层的蛋白信息。损失函数模块包括解决类别不平衡的focal loss及对比损失。基于预训练模型来提取特征可以有效避免了繁琐的人工特征提取过程。结果显示,CLAPE-DB模型在两个基准数据集上的ROC曲线下面积值分别达到了0.871和0.881,表明与其他现有模型相比具有更优越的性能。CLAPE-DB同时展示了更好的泛化能力,并且特别适用于DNA结合位点预测任务。此外,田博学课题组在不同的蛋白质-配体结合位点数据集上训练了CLAPE,证明CLAPE是一个适用于结合位点预测的通用框架。