扩展搜索日志上下文的新词识别
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

扩展搜索日志上下文的新词识别

引用
[目的]大规模搜集、整理新词扩充现有词典,提高汉语分词准确率,推动中文信息处理的发展.[方法]根据搜索日志查询串特征及新词特点,提出扩展搜索日志上下文的新词识别方法.首先,通过分析查询串的特点获取种子词集合,利用种子词集在搜索日志中进行全文扩展,提取候选新词.其次,根据新词的时间属性发现新词串,最后基于词语的边界信息,提出改进左右熵方法抽取语料中存在的新词语.[结果]在搜狗日志上进行实验,P@100的平均准确率达到89.60%.[局限]对比词串集合的规模会在一定程度上影响新词的正确率.[结论]实验表明该方法适用于搜索日志这种缺失上下文信息的文本的新词识别.

搜索日志、全文扩展、新词、边界、改进左右熵

TP391(计算技术、计算机技术)

本文系国家自然科学基金项目“基于本体的专利自动标引研究”项目编号:61271304、北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”项目编号:KZ201311232037和北京市属高等学校创新团队建设与教师职业发展计划项目项目编号:IDHT20130519的研究成果之一.

2014-12-18(万方平台首次上网日期,不代表论文的发表时间)

59-65

相关文献
评论
暂无封面信息
查看本期封面目录

现代图书情报技术

1003-3513

11-2856/G2

2014,(11)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn