科学研究

人工智能学院青年科研三组例会会议纪要

发布者:xxgc发布时间:2026-05-29浏览次数:10

会议时间:2026.5.28

会议地点:15栋316

参会人员:林豪发、胡定兴、许小迪、李琳、雷戈、王利元、罗标、袁阿兰、杨青松、李昀侪、李忆晴、杨智涵、吴楚鑫

会议主题:基于Transform的医疗实体命名实体识别

主讲人:胡定兴

一、会议内容

胡老师围绕基于Transformer架构的医疗实体识别(NER)方法,从模型选型、标注策略、特征融合、实验对比等方面做阶段性科研进展汇报,系统梳理了研究背景、技术难点、已完成工作及后续规划。

汇报首先指出,医疗文本(如电子病历、影像报告及临床记录)中蕴含着大量非结构化信息,从中精准抽取出疾病、药物、症状、检查等实体,对于临床辅助决策与科研数据挖掘具有重要价值。

然而,当前医疗实体识别任务仍面临以下技术难点:(1)标注数据稀缺且专业门槛高:医疗实体标注依赖临床专家参与,公开数据集有限,且普遍存在实体边界模糊、嵌套实体等问题。(2)长文本依赖与上下文理解不足:传统模型(如BiLSTM-CRF)对长距离语义关联的捕捉能力较弱,容易导致实体类型误判。(3)医学实体缩写与同义词歧义:同一缩写或术语在不同科室、语境下可能表示不同含义,例如“MDS”既可指骨髓增生异常综合征,也可代表运动障碍评分。(4)多实体类型边界重叠:以“高血压3级(极高危)”为例,该短语同时包含疾病、分级、风险评估等多个实体,需要更精细的建模方式来区分边界与类型。

针对上述问题,本研究构建了“预训练Transformer +序列标注+对抗训练”的完整技术路线。在基础模型选型上,系统对比了BERT、RoBERTa、BioBERT及PubMedBERT等医学预训练模型,考虑到生物医学语料的领域适配性,最终采用PubMedBERT作为基础编码器,以提升对医学术语的表征能力。

在输入表示与特征融合方面,医疗文本按字/子词切分后,叠加位置嵌入与段落嵌入,并针对长病历(超过512token)引入Longformer的滑动注意力机制,避免上下文截断,保持完整语义。解码层采用线性层与CRF联合解码,其中CRF层负责学习标签间的合法转移约束(例如“B-Disease”后不应直接接“I-Medication”),从而提升预测序列的标签合法性。

针对医疗场景中稀有实体类型多、标注噪声大的问题,采用Mix-up数据增强与虚拟对抗训练(VAT),增强模型对小样本和噪声标注的鲁棒性。评价指标方面,除严格匹配的Micro F1与实体级F1外,还引入允许边界偏移1字符的松弛匹配评价,使评估结果更贴近临床实用场景。

目前已完成的实验包括:在中文医疗实体抽取数据集(CMeEE)、中文医学语言理解基准(CBLUE)的疾病与药物实体子集上进行训练测试。

二、组员讨论

汇报结束后,与会老师围绕模型轻量化、跨模态拓展等方面展开交流,并围绕实体类型体系设计、标注工具选型、跨数据集迁移学习等实操环节展做了深入的交流和分享。

袁阿兰老师建议:可探索参数高效微调方法(如LoRA、Adapter),降低医疗实体模型对全量微调的依赖;同时引入半监督学习,利用海量无标注病历进一步提升泛化能力。

杨智涵老师提出:实体识别后可与关系抽取联合建模,形成医疗信息抽取完整链路;并建议增加对错别字、不标准表达(如“糖尿”代替“糖尿病”)的鲁棒性测试。

李琳老师指出:后续可以补充消融实验,分别验证PubMedBERT预训练、CRF层、对抗训练三项改进对最终性能的贡献。

三、会议总结

胡老师对本次汇报和讨论进行了总结。会议肯定了当前基于Transformer网络模型的医疗实体识别研究路径——从医学预训练模型选型、序列解码优化到小样本增强,技术路线清晰、实验设计合理,有效解决了医疗实体边界模糊、长依赖建模等关键问题。同时明确后续优化方向:一是逐步扩充多中心、多科室病历数据,扩大数据集规模,持续评估模型在不同临床场景下的泛化表现;二是尝试引入大语言模型进行少样本提示的初步实验,探索其在实体抽取任务中的辅助能力;三是研究模型压缩或蒸馏方法,为未来部署到边缘或移动端做好技术储备;四是逐步整理并规范标注流程与评估协议,推动研究成果向临床信息平台的实际应用过渡。

图为例会讨论现场