10.11925/infotech.2096-3467.2018.0550
基于查询表达式特征的时态意图识别研究
[目的]针对时态意图识别问题,探讨可抽取查询表达式特征的有效性及采用不同类别分类算法的识别准确度,为后续相关研究提供一定的借鉴.[方法]按查询表达式特征与时间的关联性,将其归类为时间无关特征、潜在时间特征、显式时间特征.在此基础上,分别采用有监督分类算法及半监督分类算法,探讨采用不同特征组合的有效性及不同分类算法的识别准确度.[结果]在抽取的三类查询表达式特征中,仅使用显式时间特征的平均分类准确率最高,且“查询是否包含年份”这一特征为强特征;使用不同分类算法的识别准确度相差不大;时态意图识别结果优于已有参与时态意图分类子任务(TQIC)测评的成果,平均分类准确率为81.14%.[局限]限于数据集的获取途径,仅对300条查询的时态意图识别效果进行验证;仅考虑已有的查询表达式特征,未提出用于时态意图识别的新特征.[结论]查询表达式特征中与时间关联性高的特征能提高时态意图识别准确度,而基于统计的特征(如查询词长度)对时态意图识别分类准确度的提升效果不明显.
时态意图、有监督分类、半监督分类、特征抽取
3
G354(情报学、情报工作)
国家社会科学基金青年项目“融合用户个性化与实时性意图的查询推荐模型研究”项目15 CT Q019的研究成果之一
2019-05-23(万方平台首次上网日期,不代表论文的发表时间)
共10页
66-75