基于预训练语言模型的中文专利自动分类研究
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1671-3982.2022.11.003

基于预训练语言模型的中文专利自动分类研究

引用
目的:支撑大规模中文专利精准自动分类工作,利用改进中文专利文本表示的预训练语言模型实现专利的自动分类.方法:基于中文预训练语言模型RoBERTa,在大规模中文发明专利语料上分别使用单字遮盖策略和全词遮盖策略遮盖语言模型任务进行迁移学习,得到改进中文专利文本表示的 RoBERTa 模型(ZL-RoBERTa)和 RoBERTa-wwm 模型(ZL-RoBERTa-wwm);将模型应用到专利文本分类任务中进行实验研究,并与典型深度学习模型(Word2Vec+BiGRU+ATT+TextCNN)和当前先进的预训练语言模型 BERT、RoBERTa 进行对比分析.结果:基于ZL-RoBERTa和ZL-RoBERTa-wwm的中文专利自动分类模型在专利文本分类任务上的分类精准率/召回率/F1 值更为突出.结论:改进文本表示的中文专利预训练语言模型用于专利文本分类具有更优效果,这为后续专利情报工作中应用预训练模型提供了模型基础.

中文专利、文本表示、预训练语言模型、文本分类

31

G254.1;G306(图书馆学、图书馆事业)

2023-05-29(万方平台首次上网日期,不代表论文的发表时间)

共9页

20-28

相关文献
评论
暂无封面信息
查看本期封面目录

中华医学图书情报杂志

1671-3982

11-4745/R

31

2022,31(11)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn