基于黑盒水印的NLP神经网络版权保护

引用

摘要：

随着自然语言处理(NLP,natural language processing)技术的快速发展,语言模型在文本分类和情感分析中的应用不断增加.然而,语言模型容易遭到盗版再分发,对模型所有者的知识产权造成严重威胁.因此,研究者着手设计保护机制来识别语言模型的版权信息.现有的适用于文本分类任务的语言模型水印无法与所有者身份相关联,且鲁棒性不足以及无法再生成触发集.为了解决这些问题,提出一种新的适用于文本分类任务模型的黑盒水印方案,可以远程快速验证模型所有权.将模型所有者的版权消息和密钥通过密钥相关的哈希运算消息认证码(HMAC,hash-based message authentication code)得到版权消息摘要,由HMAC得到的消息摘要可以防止被伪造,具有很强的安全性.从原始训练集各个类别中随机挑选一定的文本数据,将摘要与文本数据结合构建触发集,并在训练过程中对语言模型嵌入水印.为了评估水印的性能,在IMDB电影评论、CNEWS中文新闻文本分类数据集上对3种常见的语言模型嵌入水印.实验结果表明,在不影响原始模型测试精度的情况下,所提出的水印验证方案的准确率可以达到100％.即使在模型微调和剪枝等常见攻击下,也能表现出较强的鲁棒性,并且具有抗伪造攻击的能力.同时,水印的嵌入不会影响模型的收敛时间,具有较高的嵌入效率.

关键词：自然语言处理、文本分类、版权保护、语言模型、黑盒水印

所属期刊栏目：9

分类号：TP391(计算技术、计算机技术)

资助基金：海南省重点研发计划ZDYF2022GXTS224

在线出版日期：2023-03-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：140-149

英文信息展示

期刊专题