基于多特征融合的TextRank新闻自动摘要模型

引用

摘要：

随着互联网的发展,如何快速地从海量新闻中获取核心信息,减少浏览负担,是信息部门目前急需解决的问题.现有的TextRank及其改进算法在新闻摘要抽取任务中,考虑文本特征不全面.在摘要句选择时,只考虑到摘要的冗余度,忽略了摘要的多样性及可读性.针对上述问题,本文提出了融合多特征的文本自动摘要方法MF-TextRank(multi-feature TextRank).根据新闻的结构、句子和单词总结了更全面的文本特征信息用于改进TextRank算法的权重转移矩阵,使句子权重计算更准确.采用MMR算法更新句子权重,通过集束搜索得到候选摘要集,在MMR得分的基础上选择内聚性最高的候选摘要集作为最终的摘要输出.实验结果表明,MF-TextRank算法在摘要抽取任务中摘要Rouge 得分优于现有改进的TexRank 算法,有效提高了摘要抽取的准确性.

关键词：TextRank、MMR、Word2Vec、新闻摘要、多特征融合、自动摘要

所属期刊栏目：32

分类号：TP391.41;TN911.73;TP181

资助基金：新型网络与检测控制国家地方联合工程实验室基金;陕西省教育厅专项科研计划项目

在线出版日期：2023-02-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：242-249

英文信息展示

期刊专题