10.3321/j.issn:1000-565X.2008.09.008
基于主题的文档检索模型
现有文档检索模型大多缺乏语义学习能力,难以从主题层次上学习文档相似性.为此,文中提出了一种基于主题的文档检索模型TDRM.TDRM为所有文档建立公共主题空间,把每篇文档表示为公共主题空间中的一个向量,用向量夹角余弦定义文档相似度,并利用Latent Dirichlet Allocation学习每篇文档的主题分布.实验结果表明,与基于TextTiling和二分图最佳匹配的文档相似模型相比,TDRM在相似文档检索方面有更高的平均查准率和平均查全率,且平均查准率和平均查全率的调和平均数约高出参考模型44%.
主题、文档相似性、文档检索、信息检索、数据挖掘
36
TP391(计算技术、计算机技术)
广东省自然科学基金资助项目07006474;广东省科技攻关项目2007B010200044
2008-12-09(万方平台首次上网日期,不代表论文的发表时间)
共6页
37-42