人工智能学院青年科研三组例会会议纪要

发布者：xxgc发布时间：2026-05-29浏览次数：10

会议时间：2026.5.28

会议地点：15栋316

参会人员：林豪发、胡定兴、许小迪、李琳、雷戈、王利元、罗标、袁阿兰、杨青松、李昀侪、李忆晴、杨智涵、吴楚鑫

会议主题：基于Transform的医疗实体命名实体识别

主讲人：胡定兴

一、会议内容

胡老师围绕基于Transformer架构的医疗实体识别（NER）方法，从模型选型、标注策略、特征融合、实验对比等方面做阶段性科研进展汇报，系统梳理了研究背景、技术难点、已完成工作及后续规划。

汇报首先指出，医疗文本（如电子病历、影像报告及临床记录）中蕴含着大量非结构化信息，从中精准抽取出疾病、药物、症状、检查等实体，对于临床辅助决策与科研数据挖掘具有重要价值。

然而，当前医疗实体识别任务仍面临以下技术难点：（1）标注数据稀缺且专业门槛高：医疗实体标注依赖临床专家参与，公开数据集有限，且普遍存在实体边界模糊、嵌套实体等问题。（2）长文本依赖与上下文理解不足：传统模型（如BiLSTM-CRF）对长距离语义关联的捕捉能力较弱，容易导致实体类型误判。（3）医学实体缩写与同义词歧义：同一缩写或术语在不同科室、语境下可能表示不同含义，例如“MDS”既可指骨髓增生异常综合征，也可代表运动障碍评分。（4）多实体类型边界重叠：以“高血压3级（极高危）”为例，该短语同时包含疾病、分级、风险评估等多个实体，需要更精细的建模方式来区分边界与类型。

针对上述问题，本研究构建了“预训练Transformer +序列标注+对抗训练”的完整技术路线。在基础模型选型上，系统对比了BERT、RoBERTa、BioBERT及PubMedBERT等医学预训练模型，考虑到生物医学语料的领域适配性，最终采用PubMedBERT作为基础编码器，以提升对医学术语的表征能力。

在输入表示与特征融合方面，医疗文本按字/子词切分后，叠加位置嵌入与段落嵌入，并针对长病历（超过512token）引入Longformer的滑动注意力机制，避免上下文截断，保持完整语义。解码层采用线性层与CRF联合解码，其中CRF层负责学习标签间的合法转移约束（例如“B-Disease”后不应直接接“I-Medication”），从而提升预测序列的标签合法性。

针对医疗场景中稀有实体类型多、标注噪声大的问题，采用Mix-up数据增强与虚拟对抗训练（VAT），增强模型对小样本和噪声标注的鲁棒性。评价指标方面，除严格匹配的Micro F1与实体级F1外，还引入允许边界偏移1字符的松弛匹配评价，使评估结果更贴近临床实用场景。

目前已完成的实验包括：在中文医疗实体抽取数据集（CMeEE）、中文医学语言理解基准（CBLUE）的疾病与药物实体子集上进行训练测试。

二、组员讨论

汇报结束后，与会老师围绕模型轻量化、跨模态拓展等方面展开交流，并围绕实体类型体系设计、标注工具选型、跨数据集迁移学习等实操环节展做了深入的交流和分享。

袁阿兰老师建议：可探索参数高效微调方法（如LoRA、Adapter），降低医疗实体模型对全量微调的依赖；同时引入半监督学习，利用海量无标注病历进一步提升泛化能力。

杨智涵老师提出：实体识别后可与关系抽取联合建模，形成医疗信息抽取完整链路；并建议增加对错别字、不标准表达（如“糖尿”代替“糖尿病”）的鲁棒性测试。

李琳老师指出：后续可以补充消融实验，分别验证PubMedBERT预训练、CRF层、对抗训练三项改进对最终性能的贡献。

三、会议总结

胡老师对本次汇报和讨论进行了总结。会议肯定了当前基于Transformer网络模型的医疗实体识别研究路径——从医学预训练模型选型、序列解码优化到小样本增强，技术路线清晰、实验设计合理，有效解决了医疗实体边界模糊、长依赖建模等关键问题。同时明确后续优化方向：一是逐步扩充多中心、多科室病历数据，扩大数据集规模，持续评估模型在不同临床场景下的泛化表现；二是尝试引入大语言模型进行少样本提示的初步实验，探索其在实体抽取任务中的辅助能力；三是研究模型压缩或蒸馏方法，为未来部署到边缘或移动端做好技术储备；四是逐步整理并规范标注流程与评估协议，推动研究成果向临床信息平台的实际应用过渡。

图为例会讨论现场

科学研究

人工智能学院青年科研三组例会会议纪要