搜索日志中中文人名的自动识别
[目的]人名在搜索日志中大量存在,搜索日志中人名识别研究有助于提高搜索引擎的检索效果.[方法]提出一种搜索日志中识别中文人名的方法,首先分析日志中人名的内部组成结构以及外部上下文信息,提取7个特征,选用合适的特征模板,应用条件随机场模型初步识别人名.然后针对CRFs未能识别的人名其所在查询串字间组合共现频次较低的规律,设计贝叶斯条件概率计算公式筛选更多的人名.[结果]在搜狗日志中进行实验,开放测试结果准确率达到95%,F值达到91%.[局限]需要人工标注一定规模的训练语料.[结论]实验结果表明,该方法对于搜索日志中的人名识别是行之有效的.
搜索日志、人名识别、特征模板、条件随机场、条件概率
TP391(计算技术、计算机技术)
本文系国家自然科学基金项目“基于本体的专利自动标引研究”项目编号:61271304、北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”项目编号:KZ201311232037和北京市属高等学校创新团队建设与教师职业发展计划项目项目编号:IDHT20130519的研究成果之一.
2015-01-13(万方平台首次上网日期,不代表论文的发表时间)
71-77