10.16808/j.cnki.issn1003-7705.2023.05.045
基于正则表达式的中医医案术语抽取方法研究
目的:探索从中医医案文本中识别出领域具有较高挖掘价值的术语实体,并根据其属性分类自动抽取,最终形成可直接利用和管理的结构化标准数据.方法:构建中医领域术语词典,采用Python语言编写正则表达式中文词语匹配算法和语义分析模块,通过词典中的术语与医案文本进行匹配和语法分析,实现中医术语的 自动识别和分类抽取.结果:对300例中医肿瘤医案进行抽取测试,最终抽取术语22540个.经人工核对,发现抽取遗漏或错误术语1352个,约占抽取总术语的6%.结论:现阶段的研究只是对中医医案术语抽取方法进行初步探索,今后的研究可在此基础上对医案术语词典作进一步补充,完善语义分析模块判断能力,使其能够更好地适应中医医案书写规则,为基于中医医案的文本大数据挖掘与利用奠定基础.
中医医案、知识抽取、Python、正则表达式
39
R249;TP311.13(中医临床学)
湖南省中医药科研计划项目;长沙市自然科学基金项目;长沙市自然科学基金项目;湖南省中医药研究院院级重点课题
2023-07-03(万方平台首次上网日期,不代表论文的发表时间)
共6页
202-207