关键词:
临床术语标准化
中医症状
文本相似度
文本匹配
Web标注工具
摘要:
目的:
针对中医临床症状术语不规范,造成后续数据利用极大困难,人工进行标准化成本高的现状,利用人工智能技术,开展中医临床症状术语标准化研究,以期待实现中医临床症状术语标准化,降低人工成本。
方法:
1.整理公开出版的《中医临床常见症状术语规范修订》一书,经数据规范化处理形成知识库,通过Web技术构建术语标准化工具,用于方便地管理和维护病历数据的标准化工作。
2.基于召回排序的中医临床症状术语标准化方法,首先利用召回模型从临床病历中获得候选症状术语集,然后利用排序模型对这些候选症状进行排序和标准化。具体来说,本文采用了基于文本特征的召回模型,然后基于预训练模型的排序模型对这些候选症状术语进行排序,从而得到临床提及的标准化结果。
结果:
1.本文针对术语标准化任务,构建了一个Web数据标注工具,包含了两个主要的模块:数据管理模块和标注模块。其中,数据管理模块用于导入、管理和导出病历文件、标注数据,标注模块用于对病历中的症状术语进行标准化,该标注工具通过测试并小范围投入使用。共标注329份电子病历,获得标注数据2855条。并分析不同类别症状的占比,对重复性较高的舌象、脉象数据进行过滤,对数据量较少的类别进行数据增强,最终得到3319条正样本数据。
2.分析临床症状提及和知识库术语具有的特点,本文进行了针对中医临床症状术语的基于文本匹配的召回实验研究,结合术语名称和释义采用多策略召回,最终达到98%的召回率。
3.进行了针对中医临床症状术语的基于预训练模型的排序研究。排序模块采用 BERT-wwm-ext、RoBERTa-wwm-ext 两个与训练模型结合 SimCSE、CoSENT模型进行训练和预测,效果最佳的RoBERTa-wwm-ext+CoSENT能达到89.16%的 F1 值。
结论:
本文提出的基于召回排序的中医临床症状术语标准化方法,可以有效地对电子病历中不规范的主观描述对应到标准知识库中的术语,提高了病历数据的可比性和可用性,为临床决策提供了更为准确和可靠的数据支持。