基于语音增强算法的对抗样本攻击防御方法及装置

引用

摘要：

本发明实施例提供基于语音增强算法的对抗样本攻击防御方法及装置，可以获取待识别语音样本与待识别语音样本的频谱特征；根据待识别语音样本的频谱特征，通过预设算法对待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对待识别语音样本进行去噪，得到去噪后的语音样本，其中，算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数最小均方误差算法MMSE算法；通过预先训练的语音识别模型对去噪后的语音样本进行识别，得到识别结果。从而通过获取待识别语音样本后对待识别语音样本进行去噪处理后，通过对去噪后的语音样本进行识别，增加语音识别准确率，提高防御对抗样本攻击的效率。

专利类型：发明专利

申请/专利号：CN202010206879.0

申请日期：2020-03-23

公开/公告号：CN111564154A

公开/公告日：2020-08-21

主分类号：G10L15/02(2006.01)

申请/专利权人:北京邮电大学

发明/设计人:李丽香;潘爽;彭海朋;李帅

主申请人地址:100876 北京市海淀区西土城路10号

专利代理机构:北京柏杉松知识产权代理事务所(普通合伙)

代理人:丁芸%马敬

国别省市代码:北京;11

权利要求：

1.一种基于语音增强算法的对抗样本攻击防御方法，其特征在于，包括：获取待识别语音样本与所述待识别语音样本的频谱特征；根据所述待识别语音样本的频谱特征，通过预设算法对所述待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对所述识别语音样本进行去噪，得到去噪后的语音样本，其中，所述算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数最小均方误差算法MMSE算法；通过预先训练的语音识别模型对所述去噪后的语音样本进行识别，得到识别结果。 2.根据权利要求1所述的方法，其特征在于，所述根据所述待识别语音样本的频谱特征，通过预设算法对所述待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对所述识别语音样本进行去噪，得到去噪后的语音样本，包括：根据所述待识别语音样本的频谱特征，通过所述基于连续最小值跟踪的谱减法对所述待识别语音样本进行噪声频谱的计算，得到第一估计噪声频谱；根据所述第一估计噪声频谱对所述识别语音样本进行去噪，得到第一语音样本；根据所述第一语音样本，通过结合语音存在概率的对数MMSE算法对所述第一语音样本进行噪声频谱的计算，得到第二估计噪声频谱；根据所述第二估计噪声频谱对所述第一语音样本进行去噪，得到去噪后的语音样本。 3.根据权利要求1所述的方法，其特征在于，所述根据所述待识别语音样本的频谱特征，通过预设算法对所述待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对所述识别语音样本进行去噪，得到去噪后的语音样本，包括：根据所述待识别语音样本的频谱特征，通过所述结合语音存在概率的对数MMSE算法对所述待识别语音样本进行噪声频谱的计算，得到第三估计噪声频谱；根据所述第三估计噪声频谱对所述识别语音样本进行去噪，得到第三语音样本；根据所述第三语音样本，通过基于连续最小值跟踪的谱减法对所述第三语音样本进行噪声频谱的计算，得到第四估计噪声频谱；根据所述第四估计噪声频谱对所述第三语音样本进行去噪，得到去噪后的语音样本。 4.根据权利要求2所述的方法，其特征在于，所述待识别语音样本的频谱特征包括所述待识别语音样本的相位，所述根据所述第一估计噪声频谱对所述识别语音样本进行去噪，得到第一语音样本，包括：通过预设公式：对所述待识别语音样本进行去噪；其中，为去噪后的语音样本的频谱估计，|Y(ω)|为待识别语音样本的幅度谱，φy(ω)为待识别语音样本的相位，为离散时间傅立叶变换后的待识别语音的频谱，为估计噪声的幅度谱，为离散时间傅立叶变换后的噪声的频谱，j为虚数单位。 5.根据权利要求2所述的方法，其特征在于，所述根据所述第二估计噪声频谱对所述第一语音样本进行去噪，得到去噪后的语音样本，包括：通过预设公式：对所述待识别语音样本进行去噪；其中，为去噪后的语音样本的估计谱在频率ωk的幅度，Xk为预先获取的纯净的信号谱在频率ωk的幅度，Y(ωk)为待识别语音样本的频谱，表示在频点K存在语音，表示在待识别语音样本的频谱Y(ωk)的条件下，存在语音的条件概率，E为求加权均值。 6.一种基于语音增强算法的对抗样本攻击防御装置，其特征在于，包括：特征获取模块，用于获取待识别语音样本与所述待识别语音样本的频谱特征；样本去噪模块，用于根据所述待识别语音样本的频谱特征，通过预设算法对所述待识别语音样本进行噪声频谱的计算，并利用计算得到的估计噪声频谱对所述识别语音样本进行去噪，得到去噪后的语音样本，其中，所述算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数最小均方误差算法MMSE算法；语音识别模块，用于通过预先训练的语音识别模型对所述去噪后的语音样本进行识别，得到识别结果。 7.根据权利要求6所述的装置，其特征在于，所述样本去噪模块，包括：第一估计子模块，用于根据所述待识别语音样本的频谱特征，通过所述基于连续最小值跟踪的谱减法对所述待识别语音样本进行噪声频谱的计算，得到第一估计噪声频谱；第一去噪子模块，用于根据所述第一估计噪声频谱对所述识别语音样本进行去噪，得到第一语音样本；第二估计子模块，用于根据所述第一语音样本，通过结合语音存在概率的对数MMSE算法对所述第一语音样本进行噪声频谱的计算，得到第二估计噪声频谱；第二去噪子模块，用于根据所述第二估计噪声频谱对所述第一语音样本进行去噪，得到去噪后的语音样本。 8.根据权利要求1所述的方法，其特征在于，所述样本去噪模块，包括：第三估计子模块，用于根据所述待识别语音样本的频谱特征，通过所述结合语音存在概率的对数MMSE算法对所述待识别语音样本进行噪声频谱的计算，得到第三估计噪声频谱；第三去噪子模块，用于根据所述第三估计噪声频谱对所述识别语音样本进行去噪，得到第三语音样本；第四估计子模块，用于根据所述第三语音样本，通过基于连续最小值跟踪的谱减法对所述第三语音样本进行噪声频谱的计算，得到第四估计噪声频谱；第四去噪子模块，用于根据所述第四估计噪声频谱对所述第三语音样本进行去噪，得到去噪后的语音样本。 9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的所述计算机程序时，实现权利要求1-5任一所述的方法步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。

专利专题