10.3969/j.issn.1006-9348.2007.02.028
应用于用户兴趣建模的多文本关键词抽取研究
现有的关键词抽取算法大部分是基于单篇文档的,虽然能成功抽取出单个文章的关键词,却无法满足针对多文档的关联检索.以单文档关键词抽取为基础,引入多文本文摘中的质心概念和MMR公式并加以变形,提出并分析比较了两种多文档关键词抽取算法:对内容相近的多篇文章进行关键词抽取,并按照权重生成关键词向最,建立基于关键词向量空间的用户兴趣模型.通过对5个主题100篇文章的测试表明,使用这两种算法提取出的关键词的准确率和召回率均达到了85%左右,能够较为准确地表示用户的兴趣模型.
关联检索、关键词抽取、用户模型
24
TP18(自动化基础理论)
2007-04-16(万方平台首次上网日期,不代表论文的发表时间)
共4页
103-105,109