一种词聚类LDA的商品特征提取算法
商品评论中经常会使用一些词义近似或上下文相关的中低频词来描述商品特征,如何有效辨识这些中低频词是商品特征抽取的一个难点.由于缺乏先验知识,主题模型难以发现并抽取中低频特征词.提出基于词义相似度和上下文相关度相结合的词聚类度量算法,在此基础上构建了一种基于词聚类先验知识的潜在狄利克雷分配的商品主题特征提取模型.首先对词项按词义相似度、上下文相关度进行聚类;然后在商品主题特征抽取中引入词聚类因素作为权重影响因子,使得同一个聚类簇中的词项属于同一主题的概率增加.相关实验结果表明,本文提出的词聚类和特征提取算法具有较好的效果.
词聚类、上下文相关、LDA模型、特征提取
36
TP391(计算技术、计算机技术)
国家自然科学基金项目61173146,61363010,61363039;国家社会科学基金项目12CTQ042;江西省高等学校科技落地计划产学研合作项目KJLD12022;江西省自然科学基金重大项目20152ACB20003;江西省研究生创新专项项目YC2013-B047
2016-09-18(万方平台首次上网日期,不代表论文的发表时间)
共6页
1458-1463