DOI：10.3969/j.issn.1002-1965.2023.08.024

基于层次分类器的专利文本分类模型研究

引用

摘要：

[研究目的]为提高人工分类效率,降低因分类人员主观知识结构和客观环境因素影响导致的分类错误率,本研究构建了基于层次分类器的专利文本分类模型.[研究方法]随机抽取A、D、E、H4 个部中的4000 条中文发明专利,以其名称和摘要数据为实验对象,通过文本预处理及文本特征表示后,基于KNN、支持向量机、Rocchio和朴素贝叶斯4 种机器学习模型,分别探索IPC部、大类、小类和大组层次上的最佳分类模型及其组合.[研究结论]实验结果显示,层次结构可有效改善平面分类模型的性能,层次组合模型比层次单一模型拥有更高的分类准确率,各层次的最优分类模型分别是:支持向量机(部)、Rocchio+支持向量机(大类)、Rocchio+朴素贝叶斯+支持向量机(小类)、KNN+朴素贝叶斯+支持向量机+支持向量机(大组).

关键词：专利分类、文本分类、层次分类、国际专利分类、发明专利

所属期刊栏目：42

分类号：G306;TP391.1(科学研究理论)

在线出版日期：2023-08-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：157-163,68

英文信息展示

期刊专题