科研进展
您当前所在位置是: 首页 >> 科研进展 >> 正文
我院李铮教授团队在基于唾液蛋白糖型结合机器学习算法的肝细胞癌诊断方面取得进展
发布时间:2022-10-11      作者:    点击:[]    分享到:

肝癌是全球死亡率最高的恶性肿瘤之一,全球范围内肝细胞癌(hepatocellular carcinoma,HCC)约占所有肝癌病例的80%,其在早期难以诊断,而且进展迅速。目前对临床上对肝癌筛查方法主要包括腹部超声、多排螺旋CT和MRI以及血清学检查和液体活检等。遗憾的是,一些血清生物标志物对高危患者的敏感性和特异性较差,考虑到筛查的普及率和肝癌早期表现的隐蔽性,特别需要开发一种新的无创诊断方法来区分肝硬化(hepatic cirrhosis,HC)和HCC以提高监测的有效性。

细胞表面蛋白的糖基化改变是癌症的一个特征,并导致人类肿瘤上产生N-和O-聚糖的异常糖蛋白。近年来,凝集素芯片技术由于高通量、高灵敏度和高效率的特点,已发展成为研究糖基化的有效工具。唾液作为最复杂的体液之一,被认为是检测人类疾病的重要生物信息来源,而唾液蛋白的糖型可以动态地反映与许多人类疾病相关的生理和病理状况。此外,机器学习技术使用统计方法来推断病人属性和结果之间的关系在大型数据集上已成功应用于癌症的早期诊断和预后监测,这启发我们更全面、更有效地利用凝集素芯片技术生成的数据。本研究旨在评估唾液蛋白糖型的变化与机器学习算法相结合是否能帮助准确诊断HCC。

图1.基于凝集素芯片技术和机器学习算法构建诊断模型的工作流程图

 

首先本研究通过凝集素芯片技术检测了118份唾液样本的唾液蛋白糖型,确定了HC和HCC患者唾液蛋白糖型表达水平的改变,结果显示,22种凝集素所特异识别的糖型在HC和HCC患者和健康志愿者的唾液中显示出显著差异。特征选择是构建模型过程中的一个重要步骤,我们通过添加或删除变量来评估性能的变化,进一步减少了预测模型中使用的变量的数量。随后,使用三种机器学习算法,最小绝对收缩与选择算子(least absolute shrinkage and selection operator,LASSO)、支持向量机(support vector machine,SVM)和随机森林(random forest,RF)构建了HC和HCC的诊断模型。最后,在包含85个唾液样本的独立验证队列中通过一系列评价指标,包括AUC、准确性、特异性和敏感性评估诊断模型的性能。利用Boruta算法通过多个无偏的弱分类器-决策树的投票来进行特征筛选,帮助我们更全面得理解因变量的影响因素。我们发现在用Boruta算法进行特征选择后,结合RF算法构建HC和HCC的模型获得了最佳预测性能。在验证队列中,RF-HC模型和RF-HCC模型的AUCs分别为0.857(95% CI:0.780-0.935)和0.886(95% CI:0.814-0.957)。

图2. 凝集素芯片技术检测健康人(HV)、肝硬化患者(HC)和肝细胞癌患者(HCC)唾液糖蛋白的糖型

相关研究结果近日在线发表于《Clinical Chemistry and Laboratory Medicine》杂志,题名“Diagnosis of hepatocellular carcinoma based on salivary protein glycopatterns and machine learning algorithms”,我校为第一署名单位和通讯单位。

《Clinical Chemistry and Laboratory Medicine》杂志为医学检验技术领域TOP期刊,IF=8.490。西北大学生命科学学院2018级硕士生唐振为论文第一作者,上海市浦东新区公利医院感染科郭永红教授和西北大学生命科学学院李铮教授为通讯作者,该研究获得了上海市浦东新区科技发展基金民生研究专项基金(PKJ2021-Y12)资助。

论文信息:

https://doi.org/10.1515/cclm-2022-0715