甲状腺癌是近20年来发病率增长最快的实体恶性肿瘤,以平均每年6.2%的水平增加,是女性恶性肿瘤中第五大常见癌症。新发病例中80%为甲状腺乳头状癌(Papillary thyroid cancer,PTC)。目前临床所用的检查方法存在假阳性、假阴性、辐射暴露以及过度诊断等缺点。已有研究表明,肿瘤发生及发展通常伴随着糖基化的改变。西北大学生命科学学院功能糖组学实验室李铮教授团队利用凝集素芯片技术研究了PTC患者术前术后、甲状腺良性结节患者(Benign thyroid nodule,BTN)以及健康志愿者(Healthy volunteer,HV)的唾液糖蛋白糖型。基于唾液糖蛋白糖型数据,运用多种机器学习算法构建PTC诊断模型,评估并探讨唾液糖蛋白糖型作为 PTC 患者诊断及预后标志物的意义。相关研究结果于近日发表于International Journal of Biological Macromolecules,我校为第一署名单位和通讯单位。
人们对于甲状腺癌的早期诊断及其治疗早已争论不休。甲状腺癌手术的切除范围也存在争议:一些研究人员提倡甲状腺半切除或全切除手术,有些人提倡预防性的颈部中央淋巴结清扫,而少部分人推荐淋巴结切除手术。本团队聚焦临床问题,以大量不同类型的临床数据为基础,借助统计学分析、生物信息学等工具,对数据进行相应的处理,进行机器学习,建立诊断和预后预测模型,为医生与患者提供更多的帮助。近年来,癌症的病理学特征、分子诊断和预后也与机器学习联系了起来,其本质上是大型数据集与特定类别的机器学习方法之间的相互作用,其中心思想是对大数据分析并获取规律,建立模型,利用其对未知数据进行预测。
本研究从唾液检测入手,利用凝集素芯片技术研究了与甲状腺癌相关的特异糖型,并建立了五个机器学习模型来评估唾液糖型作为PTC筛查的生物标志物的准确率。同时,还探讨了唾液糖型作为PTC患者预后的潜在生物标志物的可能性。本研究共收集了105例唾液样本,利用凝集素芯片技术对样本进行逐一检测,并计算其对应的37种的归一化荧光强度值,筛选出各组间差异表达的凝集素并进行验证。随后将HV、BTN、PTC样本分为训练集与测试集,在训练集中输入所有特征(37个凝集素的NFIs)和案例标签,分别构建了K最近邻算法(KNN)、多层感知机(MLP)、逻辑回归(LR)、随机森林(RF)和支持向量机(SVM)五个机器学习模型,将输出的预测结果与测试集标签进行比对,利用混淆矩阵图计算其准确率、灵敏度、特异性、查准率及查全率等,同时结合AUC来衡量算法表现。
本研究发现在测试集中,表现最佳的模型为SVM 模型,其AUC值达到 0.94,敏感度为 0.92,特异性为 0.96,查全率为93.94%,查准率为 82%,准确率为 92%。另外,比较了26对PTC患者手术前后唾液糖型的差异并评估了术后恢复水平。相比术前,有6种凝集素识别的唾液糖型皆有恢复至HV水平的趋势。
西北大学生命科学学院硕士生任夏萌和师资博士后舒健为论文共同第一作者,李铮教授为通讯作者,该研究获得了国家自然科学基金 (32101030)、陕西省自然科学基金(2021JQ-446)以及中国博士后科学基金 (2020M673628XB) 的资助。