近日,我院孙士生教授团队在Nature Machine Intelligence(IF=25.896)发表题为SpecGP as a transformer‑based model for predicting energy‑adaptable structural spectra of glycopeptides的研究论文。该工作面向如何精准预测完整 N‑糖肽的结构图谱这一关键技术难题,自主研发了基于 Transformer 架构的深度学习模型SpecGP,实现了多种HCD碰撞能量下糖肽碎裂图谱的高精度预测,为糖蛋白质组学高通量解析与糖链结构精准鉴定提供了全新智能计算工具。

糖基化作为生物体最复杂的翻译后修饰之一,在细胞识别、信号传导、免疫应答及疾病发生发展中发挥核心调控作用。液相色谱‑串联质谱(LC‑MS/MS)是当前位点和结构特异性糖蛋白质组学研究的核心技术,但完整糖肽质谱图谱复杂、碎片离子覆盖度不足、不同碰撞能量下碎裂规律差异显著,导致传统方法难以实现高效、精准的结构图谱预测,制约了高精度糖蛋白质组学的快速发展和迭代。
针对上述瓶颈,孙士生教授团队构建了SpecGP 智能预测模型。该模型以 Transformer 为骨架,设计注意力增强的糖链碎片编码策略,通过单元碎片离子嵌入线性组合方式,全面覆盖糖链 B/Y 离子和肽段 b/y 离子,显著提升糖链同分异构体的图谱区分能力;模型引入碰撞能量编码,进一步实现 6–40% 宽范围 HCD 能量下的谱图精准预测,解决了已有模型仅适配HCD阶梯能量、通用性不足的缺陷;同时采用双任务协同学习框架,同步完成质谱谱图与保留时间预测,有效提升保留时间预测精度。

实验验证表明,SpecGP 在 B/Y 离子覆盖度、谱图相似度、能量泛化性等关键指标上均优于现有模型。在小鼠与人类多组织数据集上,SpecGP 预测谱图与实验谱图余弦相似度中位数超0.98,可准确识别平分型糖链、核心岩藻糖等关键诊断离子,有效区分糖链异构体。团队进一步提出自监督权重训练策略(SSWT),动态调整并最终修正训练数据中错误标注,显著降低异构体鉴定假阳性;通过 SpecGP 对StrucGP软件的鉴定结果进行重新打分,从而使多种临床样本中的糖肽鉴定数量提升17 - 40%,为高精度和高深度糖蛋白质组学研究提供了强大算力支撑。

该成果突破完整糖肽结构图谱预测的技术壁垒,一方面有助于未鉴定N-糖肽和多种碎裂能量下图谱的准确预测,使模型具备良好扩展性,可拓展至更多修饰类型与物种样本;另一方面借助学习到的糖肽碎裂规律反哺糖肽鉴定软件,实现完整糖肽同分异构体的更高精度识别。该模型为糖蛋白质组学从 “数据依赖采集(DDA)” 向 “数据非依赖采集(DIA)” 升级、高通量未知糖肽图谱库构建、疾病标志物精准筛选等提供关键方法支撑,并极大推动人工智能与糖生物学的深度融合。
本研究由博士生王贤勇和硕士生宋蕊、冯壮壮共同完成,孙士生教授为独立通讯作者,西北大学生命科学学院为第一和通讯单位。该研究得到国家自然科学基金、国家重点研发计划、陕西省自然科学基金及陕西省化学生物学基础科学研究计划等项目资助。
孙士生教授团队自创建以来,一直聚焦糖蛋白质组学新技术的研发与应用研究,坚持以方法创新驱动科学发现,研究成果以第一或通讯作者发表于Nature Biotechnology (2016)、Nature Methods (2021)、Nature Machine Intelligence (2026)、Nature Cell Biology (2026)、Nature Communications (2020,2026a,2026b)、Advanced Science (2025)、Redox Biology (2025) 等国际权威期刊,形成了从实验技术、智能算法到软件工具、再到生物医学应用的完整创新体系,持续助力我国糖蛋白质组学研究迈向国际前沿。更多详情见网站faculty.nwu.edu.cn/ShishengSun。


