10.7544/issn1000-1239.2021.20210323
基于孪生BERT网络的科技文献类目映射
国际专利分类法(international patent classification,IPC)和中国图书馆分类法(Chinese library classification,CLC)作为重要分类标识,分别在专利信息和期刊文献的组织以及管理中发挥着重要作用.如何准确地建立它们之间的映射关系对实现专利信息、期刊资源交叉浏览和检索有着重要的意义.提出了基于BERT预训练上下文语言模型的孪生网络用于建立IPC类目和CLC类目之间的映射关系,利用孪生网络模型分别抽象这2个分类法类目描述文本,通过平均池化抽象后的向量表示计算得到它们相同维度的甸子向量,基于余弦相似度计算句子之间的相似度得分,完成类目映射.在人工标注一定规模的IPC类目和CLC类目之间的映射语料库上进行实验验证,结果表明提出的方法显著优于基于规则的方法和Sia-Multi,Bi-TextCNN,Bi-LSTM等深度神经网络的方法.相关的代码、模型和人工标注语料库已经公开发布.
国际专利分类法;中国图书馆分类法;基于孪生BERT网络;类目映射;对比损失
58
TP391(计算技术、计算机技术)
国家自然科学基金项目;中国科学技术信息研究所重点工作项目
2021-09-09(万方平台首次上网日期,不代表论文的发表时间)
共10页
1751-1760