10.3969/j.issn.1000-3428.2007.06.068
信息检索用户查询语句的停用词过滤
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分.基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表.根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法.实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好.
用户查询、停用词、构造、识别
33
TP311(计算技术、计算机技术)
国家自然科学基金60272055;国家高技术研究发展计划863计划2001AA114111;教育部科学技术基金00128;教育部人文社会科学研究基地基金02JAZJD740007
2007-04-26(万方平台首次上网日期,不代表论文的发表时间)
共3页
195-197