10.3969/j.issn.1004-8340.2014.01.010
基于朴素贝叶斯算法的水产类专利文本分类
本文选取公开日从1992年1月1日到2011年12月31日的水产类的9 894条失效专利作为数据挖掘的文本.从中选出56条专利,利用分词器对其摘要进行分词,并通过卡方检验的方法过滤掉与分类相关度比较小的词,形成词组矩阵.然后采用朴素贝叶斯的方法对这些矩阵进行训练并设计程序.使用训练过后的程序对失效专利进行分类测试,合格后再对所有的专利的摘要文本进行分类,并对分类结果进行了分析和验证.验证的结果表明该程序对文本进行分类的准确率达到了85%,达到了比较好的可信度,可以用它对文本分类.如此我们就可以把失效的水产类专利文本按照设定的类别进行归类,了解一个时间段它们的分布情况,为以后做决策提供参考.
朴素贝叶斯、文本分类、卡方检验
29
O213(概率论与数理统计)
“十二五”国家科技支撑计划项目2013BAD13B01;上海市科学技术委员会资助项目12511501200
2014-04-11(万方平台首次上网日期,不代表论文的发表时间)
共6页
54-59