10.3969/j.issn.1000-3428.2015.07.007
基于高质量信息提取的微博自动摘要
文本自动摘要是获取微博平台关键信息的一种重要手段.现有面向微博的自动摘要方法较关注文本集合中句子或者关键词的提取,而在去除冗余信息、内容噪声方面缺乏有效手段,导致提取的微博内容质量不高.为解决该问题,以微博平台为研究对象,提出一种基于时频域转换的信息提取方法,获得与某话题相关度高、冗余度低且信息量大的高质量微博文本,将综合分值较高的微博作为生成摘要的样本集合,并对该样本集合中每条微博的句子进行权重打分,选取权值较高的句子组成微博摘要.实验结果表明,该方法能够有效过滤冗余信息和内容噪声,基于自动评测和人工评测的摘要结果均优于现有自动摘要方法.
微博自动摘要、冗余去除、信息提取、自动评测、人工评测
41
TP391(计算技术、计算机技术)
国家自然科学基金资助项目61070083;2013年深圳知识创新计划基金
2015-09-07(万方平台首次上网日期,不代表论文的发表时间)
共7页
36-42