增量采样聚类驱动的新闻事件发现
为获得更好的事件发现和代表性新闻抽取性能,引入数据集代表点采样聚类的视角,研究实现了一种事件发现及表示的集成分析方法.对于给定的新闻流数据,首先引入信息支撑度定义新闻间关系权重和事件关系权重,并通过引入双层近邻传播算法的迭代构建整体时间流上的单向事件内容支撑度网络,实现代表性新闻的分层增量采样,进一步考虑以最大相似度划分策略实现代表性新闻上的整体新闻流数据聚类.实验结果表明,相比于现有相关方法,新方法在大规模新闻流数据上具有显著的计算效率,可提取出新闻流中极有代表性的新闻,以及获得更好的新闻文档聚类质量,其热点事件发现结果与权威机构评选的重大新闻有极高吻合度.
新闻流数据、事件发现、代表性新闻、增量采样、信息支撑度、近邻传播、事件网络、分层聚类
15
TP391(计算技术、计算机技术)
国家自然科学基金项目;江苏省"六大人才高峰"项目
2021-05-24(万方平台首次上网日期,不代表论文的发表时间)
共10页
1175-1184