10.3969/j.issn.1672-9722.2022.07.026
基于集成学习的文本摘要抽取方法研究
为提高中文文本摘要抽取的准确性与应用于不同类型文本的有效性,论文结合MMR算法、TextRank算法、文本主题以及篇章结构信息,提出一种基于集成学习的无监督中文文本摘要自动抽取模型.使用每种抽取方法单独抽取关键句,然后采用投票机制对各方法抽取出的句子进行加权投票,对多种方法共同抽取出的句子赋予更高的权重.实验结果表明,该模型应对不同结构文本泛化能力更强,在抽取单句摘要时Rouge_1得分要高于最优的单一抽取算法得分,Rouge_2、Rouge_L得分接近最优结果;在抽取多句摘要时Rouge_1、Rouge_2、Rouge_L得分要高于其他单一方法,比最优的单一抽取算法分别提高了1.7个、1.3个、1.5个百分点,相比传统摘要抽取算法提取的摘要质量更高.
集成学习、摘要抽取、无监督
50
TP391(计算技术、计算机技术)
国家重点研发计划2017YFB1400704
2022-09-01(万方平台首次上网日期,不代表论文的发表时间)
共6页
1540-1544,1592