DOI：10.3969/j.issn.1671-3982.2018.12.002

基于机器学习的中医学派文本分类研究

引用

摘要：

目的:探索机器学习方法在中医学派文本分类中的应用.方法:将数字化纯文本中医文献分为伤寒、外科、儿科、女科4类,选择Bigram作为特征分词方法、TF-IDF为特征提取方法、Chi-square为特征降维方法,基于LibSVM和LibLinear两种分类模型将待分类文献放入模型进行分类预测.结果:训练得到LibSVM模型正确率为0.9375,Liblinear模型正确率为0.9231,编号1-5的文献分类结果符合预期.结论:机器学习对中医文献识别分类具有普适性良好、正确率高、测试速度快的优点,适合中医学派文献资料的文本分类研究.

关键词：机器学习、文本分类、中医学派、中医信息化、大数据

所属期刊栏目：27

分类号：TP183;R2-03(自动化基础理论)

资助基金：科技部科技基础性工作专项"《中医临床诊疗术语·症状体征部分》国家标准编制项目"2008FY230500

在线出版日期：2019-06-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：7-11

英文信息展示

期刊专题