用于原始音频的基于小占用空间流的模型

引用

摘要：

WaveFlow是用于原始音频的小占用空间生成流，可以以最大的似然度直接对其进行训练。WaveFlow使用扩展的二维(2D)卷积架构处理波形的远程结构，同时使用表达性自回归函数对局部变化进行建模。WaveFlow可以为原始音频提供基于似然度模型(包括WaveNet和WaveGlow)的统一视图，这可视为特殊情况。它生成高保真语音，同时合成速度比现有系统快几个数量级，因为它仅使用几个序列步骤来生成相对较长的波形。WaveFlow显著减小了自回归模型与基于流的模型之间存在的似然度差距，从而实现有效合成。它具有5.91M参数的小占用空间使其比一些现有模型小15倍。WaveFlow可在V100图形处理单元(GPU)上以比实时快42.6倍的速度生成22.05kHz高保真音频，而无需使用工程化推理内核。

专利类型：发明专利

申请/专利号：CN202010979804.6

申请日期：2020-09-17

公开/公告号：CN112634936A

公开/公告日：2021-04-09

主分类号：G10L25/03(2013.01)

申请/专利权人:百度(美国)有限责任公司

发明/设计人:平伟;彭开南;赵可心;宋钊

主申请人地址:美国加利福尼亚州

专利代理机构:北京英赛嘉华知识产权代理有限责任公司

代理人:王达佐%王艳春

国别省市代码:美国;US

权利要求：

1.一种用于训练音频生成模型的方法，所述方法包括：获取从原始音频数据采样的一维波形数据；通过列优先顺序将所述一维波形数据转换为二维矩阵，所述二维矩阵包括限定高度尺寸的行的集合；在所述音频生成模型中输入所述二维矩阵，所述音频生成模型包括向所述二维矩阵应用双射的一个或多个扩展的二维卷积神经网络层；以及使用所述双射在所述音频生成模型上执行最大似然训练，而无需使用概率密度蒸馏。 2.根据权利要求1所述的方法，其中，所述双射包括已由所述一个或多个扩展的二维卷积神经网络层建模的移位变量和缩放变量。 3.根据权利要求1所述的方法，还包括：对于两个或更多个可逆变换，响应于获得输出的二维矩阵，在所述高度尺寸上对所述输出的二维矩阵进行置换。 4.根据权利要求3所述的方法，其中，置换包括以下中的至少一个：在每次变换之后，反转一系列变换中的至少一些元素的高度尺寸以增加模型容量，或者将所述系列分为两部分并分别对每个部分的所述高度尺寸进行反转。 5.根据权利要求1所述的方法，其中，所述二维矩阵的列包括在所述二维矩阵的第一行和所述二维矩阵的第二行中的相邻波形样本。 6.根据权利要求5所述的方法，其中，所述双射是在所述高度尺寸上的自回归变换，所述双射导致所述第一行中的元素对所述第二行中的一个或多个元素具有自回归依赖性。 7.根据权利要求6所述的方法，其中，当将所述自回归变换应用于所述二维矩阵的列中的相邻波形样本时，将所述一维波形数据转换为所述二维矩阵保持了时间顺序信息。 8.根据权利要求6所述的方法，还包括：确定一个或多个二维扩展以计算在多个所述一个或多个扩展的二维卷积神经网络层上的接受域，所述接受域等于或大于所述高度尺寸，其中，在两个不同的卷积神经网络层的二维扩展是不同的。 9.一种用于对原始音频波形建模的系统，所述系统包括：一个或多个处理器；以及非暂时性计算机可读介质或媒介，包括一组或多组指令，所述一组或多组指令在由所述一个或多个处理器中的至少一个执行时使得执行以下步骤，包括：在包括一个或多个扩展的二维卷积神经网络层的音频生成模型处，获得一组声学特征；以及使用所述一组声学特征生成音频样本，其中，所述音频生成模型已通过执行以下步骤训练，包括：获取从原始音频数据采样的一维波形数据；通过列优先顺序将所述一维波形数据转换为二维矩阵，所述二维矩阵包括限定高度尺寸的行的集合；在向所述二维矩阵应用双射的所述音频生成模型中输入所述二维矩阵；以及使用所述双射在所述音频生成模型上执行最大似然训练，而无需使用概率密度蒸馏。 10.根据权利要求9所述的系统，其中，所述双射具有三角形雅可比矩阵和行列式，所述行列式用于获得对数似然度，所述对数似然度用作最大似然度训练的目标函数。 11.根据权利要求9所述的系统，还包括：使用二维卷积队列缓存一个或多个中间隐藏状态以加速音频生成。 12.根据权利要求9所述的系统，其中，所述双射包括已由所述一个或多个扩展的二维卷积神经网络层建模的移位变量和缩放变量。 13.根据权利要求9所述的系统，还包括：对于两个或更多个可逆变换，响应于获得输出的二维矩阵，在所述高度尺寸上对所述输出的二维矩阵进行置换。 14.根据权利要求13所述的系统，其中，置换包括以下中的至少一个：在每次变换之后，反转一系列变换中的至少一些元素的高度尺寸以增加模型容量，或者将所述系列分为两部分并分别对每个部分的所述高度尺寸进行反转。 15.根据权利要求9所述的系统，其中，所述双射是在所述高度尺寸上的自回归变换，并且导致所述二维矩阵的第一行中的元素对所述二维矩阵的第二行中的一个或多个元素具有自回归依赖性，其中，当将所述自回归变换应用于所述二维矩阵的列中的相邻波形样本时，将所述一维波形数据转换为所述二维矩阵保持了时间顺序信息。 16.一种用于对原始音频波形建模的生成方法，所述方法包括：在音频生成模型处，获得一组声学特征；以及使用所述一组声学特征生成音频样本，其中，所述音频生成模型已通过执行以下步骤训练，包括：获取从原始音频数据采样的一维波形数据；通过列优先顺序将所述一维波形数据转换为二维矩阵，所述二维矩阵包括限定高度尺寸的行的集合；在所述音频生成模型中输入所述二维矩阵，所述音频生成模型包括向所述二维矩阵应用双射的一个或多个扩展的二维卷积神经网络层；以及使用所述双射在所述音频生成模型上执行最大似然训练，而无需使用概率密度蒸馏。 17.根据权利要求16所述的方法，其中，所述双射是在所述高度尺寸上的自回归变换，所述双射导致所述二维矩阵的第一行中的元素对所述二维矩阵的第二行中的一个或多个元素具有自回归依赖性。 18.根据权利要求17所述的方法，其中，当将所述自回归变换应用于所述二维矩阵的列中的相邻波形样本时，将所述一维波形数据转换为所述二维矩阵保持了时间顺序信息。 19.根据权利要求16所述的方法，其中，生成所述音频样本包括：从密度分布获取逆变换数据；以及对所述逆变换数据应用正向映射。 20.根据权利要求19所述的方法，其中，所述密度分布是各向同性的高斯分布。

专利专题