日期:2024/8/9来源:
2024年7月29日,合肥综合性国家科学中心大健康研究院资深研究员、中国科学技术大学金腾川团队在Genes & Immunity杂志在线发表题为“Machine-learning and scRNA-Seq-based diagnostic and prognostic models illustrating survival and therapy response of lung adenocarcinoma”的研究性论文。
肺腺癌在世界范围内的发生率和死亡率一直居高不下,其精确诊断对改善患者预后至关重要。然而,传统的肺腺癌诊断方法,包括辅助影像学和病理学检查,通常伴随着多种局限性,如采样偏差、活检完整性、伪影形成、抗体特异性及主观性判断等问题。同时,现有模型和打分函数的敏感性和特异性有限且往往依赖相同的定量方法,实际应用价值不高。
在本研究中,作者基于肺腺癌scRNA-Seq数据表征肿瘤细胞及癌旁正常上皮细胞的特异性标志物,并最终筛选获得13个特征。随后基于随机森林算法并进行超参数优化构建了一个高精度的诊断模型,其AUC(Area Under the Receiver Operating Characteristic Curve)为0.993,提示其具有高敏感性和特异性,性能表现优异。同时,该模型在多个独立数据集的验证及基准测试中,显著优于现有模型和打分函数,具有很好的预测表现(图1)。此外,该诊断模型的打分函数也可以显著性地区分癌旁正常组织与肿瘤组织。
图1. 肺腺癌诊断模型在独立数据集中的表现及其与现有模型和打分函数的基准测试
除上述诊断模型外,作者另筛选出6个风险基因构建了肺腺癌预后模型,基于其打分函数的风险评分也是一个显著的预后指标,高风险评分提示着较差的预后和较低的生存概率。该模型的有效性也在三个独立数据集中得到了验证,包括GSE13213、GSE31210和GSE72094(图2)。此外,作者还评估了预后模型特征MRPS11和CD3EAP的蛋白水平分布差异,结果表明这两种蛋白主要高表达在肺癌样本中,而在正常肺泡或内皮细胞中未检测到(图2)。
图2. 肺腺癌预后模型及其在独立数据集中的验证
该工作提出了具有高敏感性和特异性的诊断模型和预后模型,并评估了这两个模型的潜在临床应用,在独立队列中的验证及基准测试展示了它们精准的预测性能。这项研究可以为肺腺癌的诊断、预后及临床指导提供新的辅助手段和依据。
合肥综合性国家科学中心大健康研究院程庆宇博士为本文的第一作者,大健康研究院资深研究员、中国科学技术大学生命科学与医学部金腾川教授与中国科学技术大学生命科学与医学部宋晓元教授为本文的通讯作者,该工作得到了国家重点研发计划、中科院战略先导项目、国家自然科学基金及中央高校基础研究项目的支持。
文章来源丨金腾川课题组