基于用户查询日志的网络搜索主题分析
网络搜索分析在优化搜索引擎方面具有举足轻重的作用,而且对用户个人搜索特性进行分析能够提高搜索引擎的精准度.目前,大多数已有模型(比如点击图模型及其变体),注重研究用户群体的共同特点.然而,关于如何做到既可以获取用户群体共同特点又可以获取用户个人特点方面的研究却非常少.本文研究了基于个人用户网络搜索分析新问题,即通过研究用户搜索的突发性现象,获取个人用户搜索查询的主题分布情况.提出了两个搜索主题模型,即搜索突发性模型(SBM)和耦合敏感搜索突发性模型(CS-SBM).SBM假设查询词和URL主题是无关的,CS-SBM假设查询词和URL之间是有主题关联的,得到的主题分布信息存储在偏Dirichlet先验中,采用Beta分布刻画用户搜索的时间特性.实验结果表明,每一个用户的网络搜索轨迹都有多种基于用户的独有特点.同时,在使用大量真实用户查询日志数据情况下,与LDA、DCMLDA、TOT相比,本文提出的模型具有明显的泛化性能优势,并且有效地描绘了用户搜索查询主题在时间上的变化过程.
网络搜索、搜索引擎、自然语言处理、主题模型、文本挖掘、突发性、时间分析、参数估计
12
TP391(计算技术、计算机技术)
国家自然科学基金重点项目U1201258;山东省自然科学杰出青年基金项目JQ201316;教育部人文社会科学研究项目15YJAZH042
2017-12-18(万方平台首次上网日期,不代表论文的发表时间)
共10页
668-677