迁移学习在低资源场景实体识别中的应用研究
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3778/j.issn.1673-9418.2107097

迁移学习在低资源场景实体识别中的应用研究

引用
实体识别是信息抽取工作中的一项基础性工作.目前在缺乏足够的标注语料的低资源场景下如何有效识别实体,仍是自然语言处理中的一项挑战性工作.结合预训练模型,采用一种"统一编码-分离解码"解决方案,学习大规模领域实体抽象边界信息,基于迁移学习,将大规模领域实体边界抽象信息迁移到低资源场景,提高低资源场景实体识别精度.与现有方法不同的是,仅在解码前对特征向量进行适配.设计了一种自适应模块对统一编码方式得到的每一特征向量按照目标域的实体类型和标注方式维度进行单独解码,确定每个实体的标注方式,避免复杂的实体嵌套问题.基于公开数据集的实验结果表明:相较于BERT-BiLSTM-CRF基线模型,在医药领域低资源场景下,精确率提高4个百分点,召回率提高5.4个百分点,F1提高4.72个百分点;在人事领域低资源场景下,精确率提高31.91个百分点,召回率提高31.7个百分点,F1提高31.86个百分点.基于自主采集整理数据集的实验结果也表明了模型在低资源场景下进行实体识别的有效性,相较于Lattice-BERT模型,在精确率、召回率等方面有所提高.

迁移学习、实体识别、低资源场景、序列标注

17

TP391.1;TP181(计算技术、计算机技术)

国家重点研发计划2017YFB1402400ss

2023-04-10(万方平台首次上网日期,不代表论文的发表时间)

共10页

912-921

相关文献
评论
暂无封面信息
查看本期封面目录

计算机科学与探索

1673-9418

11-5602/TP

17

2023,17(4)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn