面向微博搜索的时间感知的混合语言模型-期刊-万方数据知识服务平台

搜索

DOI: 10.3724/SP.J.1016.2014.00229

面向微博搜索的时间感知的混合语言模型

卫冰洁 ¹

王斌 ²

1.中国科学院计算技术研究所前瞻研究实验室北京 100190;国家计算机网络应急技术处理协调中心北京 1000292.中国科学院计算技术研究所前瞻研究实验室北京 100190

在线阅读下载

引用

打印

摘要：已有研究表明,时间是影响信息检索特别是微博检索的重要因素.现有的代表性工作是将时间信息作为文档先验融入统计语言检索模型,目前主要有跟查询无关和跟查询有关两种做法.这两种做法得到的模型均基于“时间越新文档越重要”这个简单假设.然而,对实际数据集进行分析发现,大多数微博查询的大部分相关文档并没有出现在最新时刻,因此上述假设并不成立.文中从这一点出发,定义这些相关文档集中出现的高峰点为热门时刻(Hot Time),并提出新假设“越靠近热门时刻,文档越重要”.基于该假设,文中提出了基于热门时刻的4个系列模型(HTLMs).在此基础上,将查询无关模型看作是文档的背景时间信息而将查询有关模型看作是文档的独立时间信息,由此引入平滑思想提出混合的时间模型(MTLM).基于TREC Microblog数据的实验结果表明,HTLM模型优于现有的工作,而混合模型项对于单一模型会有进一步的提高.

关键词：

时间感知微博搜索语言模型信息检索社交网络

分类号：

TP391(计算技术、计算机技术)

在线出版日期：

2014-03-07 （万方平台首次上网日期，不代表论文的发表时间）

页数：

9 ( 229-237 )

英文信息

计算机学报

北大核心 CSTPCD EI

ISSN：0254-4164

年,卷(期)：2014,37(1)

所属栏目：社交网络

评审材料打包下载