10.3969/j.issn.1673-4785.201111014
基于文本的新闻事件多版本发现模型
信息时代的发展让越来越多的新闻事件充斥人们的生活,对于一件特定的新闻事件,目前已有很多算法可以帮助人们进行事件追踪和发现.提出一种CDW算法,帮助读者对于一件具有多个版本描述的新闻事件进行多个不同版本的发现.这个算法将文档集映射到话题层,通过提取每个话题的流行词,以得到文档集中具有高区分度的特征.然后根据这些特征对文档集进行聚类,最后得到事件的多个版本.通过在2个实际数据集上进行实验,实验结果表明,该算法与以往的相关算法相比是十分有效的.
多版本事件、高区分度、聚类模型、话题分析
7
TP18(自动化基础理论)
国家自然科学基金资助项目61703081
2013-03-08(万方平台首次上网日期,不代表论文的发表时间)
共8页
307-314