基于电力设备大数据的预训练语言模型构建和文本语义分析

引用

摘要：

在电力设备运维管理过程中,如何运用非结构化文本信息,构造电力设备文本语义分析模型,挖掘非结构化文本信息,提升设备缺陷和故障的诊断速度和准确性,辅助电网运行检修决策,是非常具有应用价值的问题.该文提出基于超大规模预训练方法的电力设备文本语义分析模型(PowerBERT).该模型基于多头注意力机制,采用多层嵌入语义表达结构,模型总参数超过1.1亿,实现对电力文本内蕴含的信息的理解和分析.基于超过18.62亿字符的电力标准、管理规定及检修记录文本构成的电力专业语料,并采用字符掩码、实体掩码、片段掩码等多种掩码机制和动态加载策略开展模型预训练.针对电力设备文本分析场景,在电力文本实体识别、信息抽取和缺陷诊断场景进行任务场景训练和优化.与传统深度学习算法进行对比实验的结果表明,该文所提方法在基于极少的场景任务样本的情况下,在验证集和测试集上实现召回率和精准度20％～30％的性能提升.

关键词：深度学习、预训练语言模型、电力设备、自然语言处理、语义分析、缺陷分级

所属期刊栏目：43

分类号：TM72(输配电工程、电力网及电力系统)

在线出版日期：2023-02-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：1027-1036,中插14

英文信息展示

期刊专题