10.3969/j.issn.1003-0077.2006.06.007
一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA
SBGA系统将多文档自动摘要过程视为一个从源文档集中抽取句子的组合优化过程,并用演化算法来求得近似最优解.与基于聚类的句子抽取方法相比,基于演化算法进行句子抽取的方法是面向摘要整体的,因此能获得更好的近似最优摘要.演化算法的评价函数中考虑了衡量摘要的4个标准:长度符合用户要求、信息覆盖率高、更多地保留原文传递的重要信息、无冗余.另外,为了提高词频计算的精度,SBGA采用了一种改进的词频计算方法TFS,将加权后词的同义词频率加到了原词频中.在DUC2004测试数据集上的实验结果表明,基于演化算法进行句子抽取的方法有很好的性能,其ROUGE-1分值比DUC2004最优参赛系统仅低0.55%.改进的词频计算方法TFS对提高文档质量也起到了良好的作用.
计算机应用、中文信息处理、多文档自动摘要、演化算法、句子抽取、评价函数、TFS
20
TP391(计算技术、计算机技术)
国家自然科学基金90104005
2006-12-07(万方平台首次上网日期,不代表论文的发表时间)
共8页
46-53