基于预训练模型与知识蒸馏的法律判决预测算法

引用

摘要：

针对法律判决预测中罪名预测和法条推荐子任务,提出基于BERT(bidirectional encoder representation from transformers)预训练模型与知识蒸馏策略的多任务多标签文本分类模型.为挖掘子任务间的关联,提高预测准确率,运用BERT预训练模型进行多任务学习,建立BERT12multi文本分类模型;针对罪名、法条类别中的样本不均衡问题,采用分组的焦点损失(focal loss)以增强模型对于罕见罪名及法条的辨别能力;为降低模型计算复杂度并且提高模型推理速度,提出一种以教师模型评价为参考的知识蒸馏策略,通过动态平衡蒸馏中的蒸馏损失和分类损失,将BERT12multi压缩为浅层结构的学生模型.综上,构建出可以处理不均衡样本且具有较高推理速度的多任务多标签文本分类模型BERT6multi.在CAIL2018数据集上的实验表明:采用预训练模型及分组focal loss可显著提高法律判决预测的性能;通过融入教师模型评价,知识蒸馏得到的学生模型推理速度提高近一倍,并且在罪名预测及法条推荐任务中获得86.7％与83.0％的F1-Score(Micro-F1与Macro-F1的均值).

关键词：法律判决预测;预训练模型;焦点损失;多任务学习;模型压缩;知识蒸馏

所属期刊栏目：37

分类号：TP273(自动化技术及设备)

资助基金：国家自然科学基金;国家自然科学基金

在线出版日期：2021-12-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：67-76

英文信息展示

期刊专题