基于知识蒸馏的肺音分类方法、系统、终端及存储介质

引用

摘要：

本发明公开了一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质，所述方法包括：获取肺音音频，并基于所述肺音音频提取所述肺音音频的梅尔频谱特征，得到肺音数据集；基于所述肺音数据集对多个教师模型进行训练，得到已训练的多个教师模型；根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签，并经转换后，得到多分类软标签；基于所述多分类软标签和肺音数据集训练学生模型，得到已训练的学生模型，并利用所述已训练的学生模型对所述肺音音频进行分类。本发明可以基于知识蒸馏，通过利用多个教师模型的知识，指导学生模型学习，从而充分利用多方肺音音频，并准确对所述肺音音频进行分类。

专利类型：发明专利

申请/专利号：CN202011070732.X

申请日期：2020-10-09

公开/公告号：CN111933185A

公开/公告日：2020-11-13

主分类号：G10L25/51(2013.01)

申请/专利权人:深圳大学

发明/设计人:李坚强;陈杰;明仲;梁中明;王成

主申请人地址:518106 广东省深圳市南山区南海大道3688号

专利代理机构:深圳市君胜知识产权代理事务所(普通合伙)

代理人:刘文求

国别省市代码:广东;44

权利要求：

1.一种基于知识蒸馏的肺音分类方法，其特征在于，所述方法包括：获取肺音音频，并基于所述肺音音频提取所述肺音音频的梅尔频谱特征，得到肺音数据集；获取神经网络模型，所述神经网络模型包括多个教师模型与学生模型，基于所述肺音数据集对多个教师模型进行训练，得到已训练的多个教师模型，所述已训练的多个教师模型为二分类模型，用于对所述肺音音频进行分类，且每一个已训练的教师模型对应两种肺音类别的分类；根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签，并将其转换后，得到多分类软标签；基于所述多分类软标签和肺音数据集训练所述学生模型，得到已训练的学生模型，并利用所述已训练的学生模型对所述肺音音频进行分类，所述已训练的学生模型为多分类模型，所述已训练的学生模型对应于多种肺音类别的分类。 2.根据权利要求1所述的基于知识蒸馏的肺音分类方法，其特征在于，所述获取肺音音频，并基于所述肺音音频提取所述肺音音频的梅尔频谱特征，得到肺音数据集，包括：采集所述肺音音频，并对所述肺音音频进行音频数据增强处理，得到增强后的肺音音频；对所述增强后的肺音音频进行切片，得到多个音频片段；分别从每一个所述音频片段中提取所述梅尔频谱特征，得到所述肺音数据集。 3.根据权利要求2所述的基于知识蒸馏的肺音分类方法，其特征在于，所述音频数据增强处理包括：时间变换处理、音高变换处理和μ律压缩处理。 4.根据权利要求2所述的基于知识蒸馏的肺音分类方法，其特征在于，所述获取肺音音频，并基于所述肺音音频提取所述肺音音频的梅尔频谱特征，得到肺音数据集之后，包括：对每一个所述音频片段进行零均值归一化处理。 5.根据权利要求1所述的基于知识蒸馏的肺音分类方法，其特征在于，所述基于所述肺音数据集对多个教师模型进行训练，得到已训练的多个教师模型，包括：获取所述肺音数据集中的预测标签，所述预测标签为所述肺音数据集中的梅尔频谱特征与预测音频类别的对应关系；基于所述预测标签与真实标签，对多个教师模型进行训练，得到所述已训练的多个教师模型，所述真实标签为肺音类别。 6.根据权利要求1所述的基于知识蒸馏的肺音分类方法，其特征在于，所述基于所述多分类软标签和肺音数据集训练所述学生模型，得到已训练的学生模型，并利用所述已训练的学生模型对所述肺音音频进行分类，包括：获取所述多分类软标签；基于所述多分类软标签与肺音数据集，对所述学生模型进行训练，得到所述已训练的学生模型，所述已训练的学生模型的软标签接近所述已训练的多个教师模型的软标签；利用所述已训练的学生模型对所述肺音音频进行分类，得到所述肺音音频的类别。 7.根据权利要求1所述的基于知识蒸馏的肺音分类方法，其特征在于，所述教师模型与所述学生模型均为一个6层的卷积神经网络模型。 8.一种基于知识蒸馏的肺音分析系统，其特征在于，所述系统包括：音频特征获取单元，用于获取肺音音频，并基于所述肺音音频提取所述肺音音频的梅尔频谱特征，得到肺音数据集；教师模型训练单元，用于获取神经网络模型，所述神经网络模型包括多个教师模型与学生模型，基于所述肺音数据集对多个教师模型进行训练，得到已训练的多个教师模型，所述已训练的多个教师模型为二分类模型，用于对所述肺音音频进行分类，且每一个已训练的教师模型对应两种肺音类别的分类；软标签拟合单元，用于根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签，并将其转换后，得到多分类软标签；学生模型训练单元，用于基于所述多分类软标签和肺音数据集训练所述学生模型，得到已训练的学生模型，并利用所述已训练的学生模型对所述肺音音频进行分类，所述学生模型为多分类模型，所述已训练的学生模型对应于多种肺音类别的分类。 9.一种智能终端，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-7中任意一项所述的方法。 10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1-7中任意一项所述的方法。

专利专题