搜索日志中中文人名的自动识别
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

搜索日志中中文人名的自动识别

引用
[目的]人名在搜索日志中大量存在,搜索日志中人名识别研究有助于提高搜索引擎的检索效果.[方法]提出一种搜索日志中识别中文人名的方法,首先分析日志中人名的内部组成结构以及外部上下文信息,提取7个特征,选用合适的特征模板,应用条件随机场模型初步识别人名.然后针对CRFs未能识别的人名其所在查询串字间组合共现频次较低的规律,设计贝叶斯条件概率计算公式筛选更多的人名.[结果]在搜狗日志中进行实验,开放测试结果准确率达到95%,F值达到91%.[局限]需要人工标注一定规模的训练语料.[结论]实验结果表明,该方法对于搜索日志中的人名识别是行之有效的.

搜索日志、人名识别、特征模板、条件随机场、条件概率

TP391(计算技术、计算机技术)

本文系国家自然科学基金项目“基于本体的专利自动标引研究”项目编号:61271304、北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”项目编号:KZ201311232037和北京市属高等学校创新团队建设与教师职业发展计划项目项目编号:IDHT20130519的研究成果之一.

2015-01-13(万方平台首次上网日期,不代表论文的发表时间)

71-77

相关文献
评论
暂无封面信息
查看本期封面目录

现代图书情报技术

1003-3513

11-2856/G2

2014,(12)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn