10.3969/j.issn.1672-9722.2017.06.030
基于事件多要素模型的新闻主题句抽取
新闻主题句抽取是对新闻文本进行语义分析的一种技术,其核心是将新闻文本中的句子作为语义分析的基本单元,识别出与新闻主题语义最相关的句子.针对Web新闻特征,提出了一种基于事件多要素模型的新闻主题句抽取方法.首先提取出了新闻报道的标题T、关键字K、描述D、首段F和子事件句S,然后用标题、关键字、描述和首段去表征一篇新闻文档,接着将子事件句和新闻文档以事件多要素模型的方式映射到向量空间中,最后利用向量之间的余弦相似度计算子事件句和新闻文档的相似度,并取相似度最高的为新闻主题句.实验结果表明,在社会政治和自然灾害两类的主题句抽取上,提出的方法优于基于LDA模型的主题句抽取方法和基于TFIDF的抽取方法,F值得到了明显的提升.
新闻事件、信息抽取、多要素模型、新闻主题句
45
TP391.1(计算技术、计算机技术)
2017-07-24(万方平台首次上网日期,不代表论文的发表时间)
共5页
1156-1160