关键词:
中文分词
同义词匹配
语义分析
中医
临床采集
摘要:
中医学是中国劳动人民创造的传统医学,是医者通过对人体生理的研究、病理以及疾病的防治而总结出的经验。传统中医诊断通过“望”、“闻”、“问”、“切”等方法获得患者的病情资料,再结合以往中医总结的经验,确定病症的临床表现特点与病情变化规律,从而进行诊断。中医在诊断推理的过程中,受医者的主观影响较大,在根据病人的临床表现和四诊合参方法得出病症结果时,会出现误诊或错诊的情况,这样会使中医诊断出的结果精准程度大大降低。本文所研究与实现的基于语义分析的中医临床采集系统,是通过对语义分析理论的研究,将其应用于临床采集的医案信息,以医案中标准化四诊信息的提取和数字化为基础,实现中医定性数据向定量数据的转化,为机器学习等量化分析方法应用于中医证候分析提供量化基础。本文主要研究的内容如下:(1)基于中文分词方法的中医临床信息采集模型研究。将医者根据患者的临床信息及表现,对记录的描述性文本信息进行收集,初步筛选后将这些临床数据放到分词模型中,对临床数据进行预处理。本文使用了最大正向匹配中文分词算法,并对该算法进行改进,根据用户所设定的最大分词长度来循环遍历,与“词典”中的词进行匹配,得到匹配的结果就是所要的分词结果。(2)基于词典的中医同义词匹配方法研究。在获得分词后的词语中,根据已分词的文本来提取其中与症状相关的词语,再与标准的四诊信息进行匹配,使得症状相关的词语得以统—表述,得出与病症相关的四诊信息。本文使用基于词典的同义词匹配算法,用词典特定的结构和词汇间的相似度计算,计算出病症词语和标准的四诊信息之间的语义相似度,即可匹配出特征词。(3)中医临床采集系统的实现。以中医辅助诊疗平台的数据采集为目的,通过对上述研发的中医语义分析模型的嵌入,开发实现了一套基于B/S架构的中医临床采集系统。系统可以实现有效的中医临床医案信息录入,并通过语义分析模型,将医案文本信息转化可量化分析的数字信息,为中医辅助诊疗平台的证候分析提供基础。系统包括的主要功能模块有:医案信息的处理、标准四诊信息量化数据库的建立、生成CRF表和处方信息识别。图26表11参53