关键词:
中医方剂
Top-Rank-k
dTidset
带权扩展支持度
方剂学
摘要:
随着信息化的深入,中医作具有悠久历史的中华民族传统医学,在其几千年的临床实践和理论研究中积累了大量的方剂。中医方剂相关信息越来越多,如何从这些宝贵的数据库资源中找到有用的中医药知识,对现有的中医方剂进行分析,从而为中医专家研究方剂配伍提供相应的数据支持,是现代化中医方剂学急需解决的问题。鉴于此,本文结合中医方剂数据特点基础上,用数据挖掘的方法对方剂中治疗中风病和消渴病的药材配伍规律、药材用量和对应方剂信息的分析和研究,以便筛选出有效治疗上述症型的代表方。本文的主要工作如下:(1)数据预处理和方剂建模。现有的中医方剂古典书籍中对于不同的方剂名称、药材名称、用药量等记载不一,就给中医方剂数据统一性和完整性带来了障碍。因此在进行构建中医方剂数据库时必须对于原始数据采集进行标准化和规范化。(2)基于SO-Sets的频繁模式挖掘算法:在TB-Tree的基础上提出了 SO-Tree的数据结构,并在此基础上生成了 SO-Sets的编码形式。SO-Sets只需要对Start Order(或Finish Order)进行存储,大大提高了其空间效率。在基于SO-Sets的基础上,提出了一种挖掘中医方剂频繁模式的有效算法。此外,为了降低搜索的空间复杂度,算法中利用超级等价的性质进行剪枝。(3)基于带权无向图的Top-Rank-k频繁模式挖掘算法:为降低输入参数过大或过小对于中医方剂挖掘结果的影响,过滤掉1-项集和2-项集,直接挖掘出频繁k-项集(k≥3),从而提出一种基于带权无向图的中医方剂Top-Rank-k频繁模式挖掘算法;该算法可以在挖掘出满足条件的核心药物组合的同时并发现该核心药物组合做对应的方剂名,这为中医专家研究方剂配伍提供了数据支持;另外,该算法为提高算法的空间性能,采用了动态位向量机制对带权无向图中的权值进行了压缩存储。(4)基于WIdT-Tree的最大带权频繁模式挖掘算法:针对中医药材在不同的方剂中代表不同的价值和意义,定义了 dTidset概念,在dTidset的基础上对于WIT-Tree存储结构进行了改进和优化,提出了一种基于WIdT-Tree的最大带权频繁模式挖掘算法。同时,利用Diffset策略只需对部分频繁k-项集的带权支持度进行计算,对带权扩展支持度相等节点采取剪枝操作,从而减少了计算代价和搜索空间。在完成对于上述核心药物组合功效规律的分析后,根据上述核心药物组合的分析结果、方剂信息的分析以及用药量的分析,为脑中风和消渴病的方剂配伍规律的提供了重要数据支持,对丰富中医方剂学理论具有重要意义。