Nature子刊:挖掘抗菌肽更容易,李煜/戴磊合作开发蛋白质语言模型,解码进化遥远抗菌肽的"家族密码"

专属客服号

微信订阅号
大数据治理
全面提升数据价值
赋能业务提质增效
识别进化上遥远的抗菌肽(AMPs)对于发现尚未开发的临床候选药物以对抗
抗生素
耐药性至关重要。现有的实验和计算方法受限于它们对已知AMPs序列同一性的依赖,缺少远缘同源物。
2026年3月3日,香港中文大学李煜、中国科学院深圳先进技术研究院戴磊共同通讯在
Nature Biomedical Engineering
在线发表题为
“Uncovering evolutionarily remote and highly potent antimicrobial peptides with protein language models”
的研究论文。该研究开发了一种用蛋白质语言模型,用以揭示进化上遥远而高效的抗菌肽。
在这里,研究人员提出了一个端到端的机器学习框架,该框架被称为蛋白质语言驱动的分层多任务深度森林(HMD-AMP ),用于AMP预测和发现。通过
管理
具有挑战性的训练集和利用微调的蛋白质语言模型(PLM),HMD-AMP捕捉肽序列中的进化和功能模式。对于AMP分类和功能类型预测,它在Matthews相关系数(MCC)方面优于以前的方法10%以上,实现了高分辨率AMP发现

抗生素的过度使用导致了抗微生物药物耐药性的出现和蔓延,给医疗保健系统带来了显著的挑战。抗菌肽(AMPs)是抗生素最有希望的替代品之一,可有效控制耐药病原体,因为它们在自然界中已经存在了数百万年,几乎没有或只有有限的耐药性。近几十年来,AMPs引起了广泛的研究兴趣。AMP发现的科学贡献包括广泛的湿实验室研究。虽然湿式实验室研究对该领域的知识发现至关重要,但其有限的通用性使得大规模评估AMPs变得困难。随着
统计
和计算方法的进步,为AMP发现开发了机器学习框架。
然而,计算方法有几个主要的挑战。已知的AMP仅代表肽序列空间的一小部分,短肽可以快速进化,导致AMP具有高度不同的序列。识别进化上偏远的抗菌肽对于理解抗菌肽的结构和功能以及阐明治疗机制至关重要。然而,目前的AMP发现方法很难检测到与已经表征的AMP不同的远程和有效的AMP。此外,大多数抗菌数据库仅包含阳性(抗菌)序列,因此很难生成高质量的阴性样本。最后,虽然天然抗菌肽(动物先天
免疫
的关键成分)数量丰富,而且通常有效无毒,但最近的研究主要集中在微生物来源的抗菌肽上,可能忽略了来自宿主基因组的抗菌肽。

发现高效AMPs的工作流程(图源自
Nature Biomedical Engineering
)
在这里,研究人员介绍了HMD-AMP,一种基于蛋白质语言模型的AMP发现方法。HMD-AMP在识别进化上距离较远的AMP方面优于以前的方法,并能够从宏基因组数据中发现未知和高度有效的AMP。应用于九种哺乳动物的宿主和肠道微生物基因组,HMD-AMP揭示了超过3700万个预测的AMP。在经过实验验证的91个高可信度序列中,74个显示出很强的抗菌活性,48个在进化上与已知的抗菌肽相距甚远。这些抗菌肽中的四种在低有效浓度下表现出广谱抗菌活性,并表现出低毒性,其中最有效的肽在小鼠腹膜大肠杆菌感染模型中表现出治疗效果。
参考消息:https://www.nature.com/articles/s41551-026-01630-w

