10.3772/j.issn.1000-0135.2011.06.007
基于句子相似度的文本主题句提取算法研究
文本主题提取是文本挖掘领域的重要研究内容,解决文本信息泛滥的重要手段.为了解决现有文本主题句提取中一些局部主题容易被忽略的问题,本文提出一种"先分割,再提取"的思想.首先将文本表示为句子的线性序列,句子表示为词的线性序列,并对每个句子都预处理为含有实词的词汇链,然后基于知网(Hownet)计算相邻句子相似度.基于句子相似度,采用文本分割技术将文本分为多个关于子主题的句子包,通过句子关系图对这些句子包进行主题句提取.最后选用不同的语料库,设计进行了可接受性测试,实验结果验证该算法是可行、有效地.
句子相似度、主题句提取、文本分割、句子关系图
30
TP3;G25
教育部人文社科研究项目"期刊文献知识元挖掘及知识仓库构建"09YJA870005
2011-08-26(万方平台首次上网日期,不代表论文的发表时间)
共5页
605-609