DOI：10.3969/j.issn.1003-0077.2005.03.002

基于主题语言模型的中文信息检索系统研究

引用

摘要：

准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的.在本文中我们提出了基于主题语言模型的信息检索系统,首先设计了"改进的两阶段K-Means聚类算法"来对文档集合进行聚类,通过引入AspectModel结合聚类结果可以得到基于主题的语言模型.这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律.将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型.实验结果表明我们提出的这个方法显著改善了检索系统的性能,与Jelinek-Mercer模型方法相比较,主题语言模型检索系统的平均精度提高大约16.17%,召回率提高大约9.64%.

关键词：人工智能、自然语言处理、主题语言模型、信息检索

所属期刊栏目：19

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金60203007;国家高技术研究发展计划863计划2001AA114040

在线出版日期：2005-06-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：14-20

英文信息展示

期刊专题