10.3969/j.issn.1673-4785.201205045
基于词共现图的中文微博新闻话题识别
针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性.
微博、新闻话题、新闻话题识别、主题词、词共现图
7
TP391.1(计算技术、计算机技术)
国家自然科学基金资助项目70671039;中央高校基本科研业务费专项资金资助项目12MS121
2012-12-24(万方平台首次上网日期,不代表论文的发表时间)
共6页
444-449