基于LDA模型的新闻话题分类研究
针对部分网站中新闻话题没有分类或者分类不清等问题,将LDA模型应用到新闻话题的分类中。首先对新闻数据集进行LDA主题建模,根据贝叶斯标准方法选择最佳主题数,采用Gibbs抽样间接计算出模型参数,得到数据集的主题概率分布;然后根据JS距离计算文档之间的语义相似度,得到相似度矩阵;最后利用增量文本聚类算法对新闻文档聚类,将新闻话题分成若干个不同结构的子话题。实验结果显示表明该方法能有效地实现对新闻话题的划分。
LDA、文本聚类、新闻话题、分类、主题
TP391(计算技术、计算机技术)
安徽省高校省级自然科学研究重点项目NO.KJ2014A250;宿州学院校级科研平台开放课题项目NO.2013YKF14;安徽省大学生创新创业训练计划项目AH201310379082
2014-07-15(万方平台首次上网日期,不代表论文的发表时间)
共4页
3795-3797,3823