DOI：10.3772/j.issn.1000-0135.2011.06.007

基于句子相似度的文本主题句提取算法研究

引用

摘要：

文本主题提取是文本挖掘领域的重要研究内容,解决文本信息泛滥的重要手段.为了解决现有文本主题句提取中一些局部主题容易被忽略的问题,本文提出一种"先分割,再提取"的思想.首先将文本表示为句子的线性序列,句子表示为词的线性序列,并对每个句子都预处理为含有实词的词汇链,然后基于知网(Hownet)计算相邻句子相似度.基于句子相似度,采用文本分割技术将文本分为多个关于子主题的句子包,通过句子关系图对这些句子包进行主题句提取.最后选用不同的语料库,设计进行了可接受性测试,实验结果验证该算法是可行、有效地.

关键词：句子相似度、主题句提取、文本分割、句子关系图

所属期刊栏目：30

分类号：TP3;G25

资助基金：教育部人文社科研究项目"期刊文献知识元挖掘及知识仓库构建"09YJA870005

在线出版日期：2011-08-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：605-609

英文信息展示

期刊专题