DOI：10.3969/j.issn.1671-3982.2022.11.003

基于预训练语言模型的中文专利自动分类研究

引用

摘要：

目的:支撑大规模中文专利精准自动分类工作,利用改进中文专利文本表示的预训练语言模型实现专利的自动分类.方法:基于中文预训练语言模型RoBERTa,在大规模中文发明专利语料上分别使用单字遮盖策略和全词遮盖策略遮盖语言模型任务进行迁移学习,得到改进中文专利文本表示的 RoBERTa 模型(ZL-RoBERTa)和 RoBERTa-wwm 模型(ZL-RoBERTa-wwm);将模型应用到专利文本分类任务中进行实验研究,并与典型深度学习模型(Word2Vec+BiGRU+ATT+TextCNN)和当前先进的预训练语言模型 BERT、RoBERTa 进行对比分析.结果:基于ZL-RoBERTa和ZL-RoBERTa-wwm的中文专利自动分类模型在专利文本分类任务上的分类精准率/召回率/F1 值更为突出.结论:改进文本表示的中文专利预训练语言模型用于专利文本分类具有更优效果,这为后续专利情报工作中应用预训练模型提供了模型基础.

关键词：中文专利、文本表示、预训练语言模型、文本分类

所属期刊栏目：31

分类号：G254.1;G306(图书馆学、图书馆事业)

在线出版日期：2023-05-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：20-28

英文信息展示

期刊专题