10.3778/j.issn.1002-8331.1606-0438
微博文本聚类中特征扩展策略研究
针对微博文本高维、稀疏的特点,比较基于同义词词林等外部知识库的文本扩展策略,利用Word2vec训练微博语料,并构建微博上下文相关词词表,通过种子词表和微博标签信息去扩展微博文本流中的关键词,最后提出了提取微博文本关键词及区分词向量中相似词和相关词的方法.实验结果证明,微博短文本经过Word2vec词向量相关词及微博标签扩展后,其聚类效果有了明显提高.
微博文本、高维稀疏、关键词提取、相似词、相关词、特征扩展、聚类
53
TP301(计算技术、计算机技术)
国家自然科学基金61370139;北京市属高等学校创新团队建设与教师职业发展计划项目IDHT20130519
2017-07-18(万方平台首次上网日期,不代表论文的发表时间)
共6页
90-94,195