10.11925/infotech.2096-3467.2021.0930
基于预训练模型的多标签专利分类研究
[目的]提高专利自动分类效果,准确地为专利申请书匹配适合的一个或多个IPC分类号.[方法]构建了大规模中文专利数据集(CNPatents),选取IPC分类号中的前4位作为分类标签,使用BERT、RoBERTa和RBT3模型进行训练和测试.[结果]实验结果表明,在含有600多个类别的分类任务中,最好的模型分类准确率为0.756,Micro-F1值为0.597;经过高频标签筛选后,准确率提升到0.912,Micro-F1值提升到0.717.[局限]作为训练集的专利文本存在数据不平衡的状况,对训练集进行高频标签筛选仍未完全解决该问题,需要进一步扩大专利数据集规模.[结论]实现了多标签专利的自动分类,并通过高频标签筛选进一步提升了模型的分类效果.
专利分类、预训练模型、专利文本表示
6
G350(情报学、情报工作)
广东省重点领域研发计划项目;广东省区域联合基金重点项目
2022-06-23(万方平台首次上网日期,不代表论文的发表时间)
共9页
129-137