基于改进Single-pass算法的新闻话题演化跟踪算法
随着信息技术的发展,每天都有大量的新闻文本在互联网上发布、转发,在这样的海量信息环境下,如何快速定位自己感兴趣的话题、追踪其发展趋势已成了近年来的研究热点.面向互联网上新闻文本,提出聚类阈值的估计方法对已有的Single-pass算法进行优化,进而基于时间片设计一个新闻文本演化算法.在新华网等四个网站上采集新闻数据并进行实验,实验表明所提算法可有效跟踪新闻话题的演化过程.
Single-pass算法、网络爬虫、聚类、演化、跟踪
17
TP311(计算技术、计算机技术)
江苏省自然科学基金;教育部人文社科基金;江苏省教育科学十三五规划课题;江苏省高校哲学社会科学基金项目
2021-05-20(万方平台首次上网日期,不代表论文的发表时间)
共4页
26-29