基于K-means的专利文本聚类分析

引用

摘要：

为分析隐含在专利数据中不易直接统计得出的信息,将数据挖掘技术应用到专利信息的分析中.本文选取经典的聚类算法对专利的文本信息进行聚类分析.主要针对专利的标题、摘要等文本进行聚类,首先将专利的文本信息进行预处理,再利用TF-IDF权值计算法将专利文本信息向量化,然后采用K-means算法对向量化的数据进行聚类分析.最后选取钢铁产业链中最具创新性环节节能减排主题的部分国内外专利数据,采用Python语言进行编程验证,对聚类结果进行阐述.

关键词：专利文本聚类、数据挖掘、K-means、Python、钢铁行业

所属期刊栏目：14

分类号：TP312(计算技术、计算机技术)

在线出版日期：2018-09-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：206-207,214

英文信息展示

期刊专题