10.3969/j.issn.2096-1057.2020.05.003
基于改进Single-Pass的新闻话题检测与追踪技术研究
为解决如何从海量新闻报道中检测并追踪到目标话题,选择了自增式聚类Single-Pass算法进行研究.在原有的基础上对其进行改进得到改进后的Single-Pass聚类算法,期望能得到更好的解决方法.对于原有算法进行的改进主要有在新闻文本的特征词选取中加入权重系数表达特征词位置信息,同时辅以时间特征进行新闻文本相似度计算,并且在Single-Pass聚类算法步骤中添加子话题阈值判断过程.实验验证改进后的Single-Pass聚类算法不止可得到不同粒度的话题聚类效果,同时也提升了聚类效率.实验结果证明,在相同条件下,改进Single-Pass聚类算法的漏检率和误检率上有明显的改善.
新闻话题、Single-Pass聚类算法、时间特征、相似度、子话题
6
TP391.1(计算技术、计算机技术)
2020-05-11(万方平台首次上网日期,不代表论文的发表时间)
共1页
396.1-396.8