10.3969/j.issn.1002-137X.2013.11.050
基于分类的term重要性识别方法
在传统的搜索引擎和信息检索中,用户Query中的term-weight通常是以一种上下文无关的方式得到的.现有的大多数信息检索技术都使用词袋方法,例如布尔模型、向量空间模型和概率模型等,这些方法均没有考虑Query中term之间的相关性.为了能够充分利用Query中的信息来提高term-weight的准确度,提出了一种有监督的机器学习方法来学习用户Query中的term-weight.该方法基于分类的方法,并引入了句法分析作为分类的一项重要的特征来训练模型.考虑用户Query中term之间的关系后,既避免了由Query到单个term的信息丢失,又增加了短文本的特征,同时使分类器实现软输出,能够给term的重要程度一个更为准确的量化值.
分类、依存句法分析、查询词权重、查询分析、term重要性、搜索引擎、信息检索
40
TP311.1(计算技术、计算机技术)
国家自然科学基金70971059;辽宁省创新团队项目2009T045
2013-12-06(万方平台首次上网日期,不代表论文的发表时间)
共6页
242-247