基于混合策略的高精度长术语自动抽取
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1003-0077.2009.06.004

基于混合策略的高精度长术语自动抽取

引用
在目前的术语自动抽取中,双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了术语自动抽取的一个难点.该文提出了NC-value参数和互信息相结合的混合策略来识别三字以上的长术语的方法.该方法充分发挥了NC-value参数在利用词语上下文信息和互信息参数在词语结合强度两方面的优势,两者相互约束和配合,更有利于找到准确的长术语边界.采用生物信息领域Yapex语料进行实验,结果表明,三字以上长术语抽取正确率和召回率分别达到88.5%和76.6%,F测量值达到82.2%,稍高于其他方法的结果.

计算机应用、中文信息处理、术语抽取、NC-value、互信息

23

TP391(计算技术、计算机技术)

江苏省现代企业信息化应用支撑软件工程技术研究开发中心资助项目SX200907;黑龙江省博士后基金资助项目520-415029;苏州市职业大学基金资助项目SZD08L26;"青蓝"工程资助项目

2010-01-19(万方平台首次上网日期,不代表论文的发表时间)

共5页

26-30

相关文献
评论
暂无封面信息
查看本期封面目录

中文信息学报

1003-0077

11-2325/N

23

2009,23(6)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn