基于概率主题模型的短文本自动分类系统构建

引用

摘要：

互联网平台的蓬勃发展产生了以新兴媒体为承载的数字资源,如何从中有效实现知识检索、知识发现成为信息管理领域和互联网技术领域的一个重要课题.本文以《中国分类主题词表》为主题词受控表,首先从词的粒度层面对语料数据进行短文本信息挖掘,其次基于隐含狄利克雷分布(LDA)模型切分文本内容,最后依据词频统计实现主题词的提取、聚类,并通过共现矩阵构建短文本自动分类系统.该系统一方面有效地实现了知识的快速聚类和关联自动分类,另一方面为用户提供了满意度更高的知识发现服务及相关扩展服务.

关键词：文本分类、主题发现、LDA模型

所属期刊栏目：29

在线出版日期：2021-03-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：102-112

英文信息展示

期刊专题