3D数字人的语音驱动方法、装置、存储介质及相关设备

引用

摘要：

本申请提供的3D数字人的语音驱动方法、装置、存储介质及相关设备，当获取到目标用户输入的语音信号时，可以获取目标表情预测模型，然后将语音信号输入至目标表情预测模型中，这样便可以得到目标表情预测模型输出的、与语音信号同步的、3D数字人的人脸不同区域的表情参数；利用该表情参数以及语音信号驱动3D数字人说话时，既可以通过人脸不同区域的表情参数来生成嘴形丰富度较高的3D数字人，又可以控制3D数字人说话时语音与嘴形的同步性，为用户提供接近于实时与真人自然交流的体验，从而在极大程度上提升用户的互动感与沉浸感，满足元宇宙3D场景数字人音频驱动唇形的需求。

专利类型：发明专利

申请/专利号：CN202410021915.4

申请日期：2024-01-08

公开/公告号：CN117524244A

公开/公告日：2024-02-06

主分类号：G10L21/10(2013.01)

申请/专利权人:广州趣丸网络科技有限公司

发明/设计人:张顺四;马兴沛

主申请人地址:510630 广东省广州市天河区平云路163号之二1601室(部位:自编之01室)

专利代理机构:北京集佳知识产权代理有限公司

代理人:肖茹芸

国别省市代码:广东;44

权利要求：

1.一种3D数字人的语音驱动方法，其特征在于，所述方法包括：获取目标用户输入的语音信号，以及目标表情预测模型，其中，所述目标表情预测模型包括目标语音编码模块、目标3D解码网络和目标多层感知器；将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理后，得到与所述语音信号同步的、3D数字人的人脸不同区域的表情参数；利用所述语音信号以及所述3D数字人的人脸不同区域的表情参数，驱动所述3D数字人说话。 2.根据权利要求1所述的3D数字人的语音驱动方法，其特征在于，所述将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理后，得到与所述语音信号同步的、3D数字人的人脸不同区域的表情参数，包括：利用所述目标语音编码模块生成与所述语音信号对应的音频特征后，通过所述目标3D解码网络生成与所述音频特征同步的唇形特征，其中，所述目标语音编码模块和所述目标3D解码网络是利用预设的目标音唇同步模型作为判别器训练得到的；利用所述目标多层感知器将所述唇形特征转化为3D数字人的人脸不同区域的表情参数，其中，所述目标多层感知器是使用多个维度且相互解耦的3D人脸变形器的变形参数作为初始权重参数训练得到的。 3.根据权利要求1所述的3D数字人的语音驱动方法，其特征在于，所述目标语音编码模块为基于BERT的编码网络，所述语音信号为具有时序关系的任意时长的语音特征；所述将所述语音信号经过所述目标语音编码模块进行处理的过程，包括：通过所述基于BERT的编码网络提取所述语音特征中具有上下文信息、且时序信息相关联的目标语音特征。 4.根据权利要求1所述的3D数字人的语音驱动方法，其特征在于，所述目标表情预测模型还包括唇形风格映射模块；所述将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理的过程，包括：将所述语音信号依次经过所述目标语音编码模块和所述目标3D解码网络进行处理后，得到对应的唇形特征；通过所述唇形风格映射模块将所述唇形特征映射到对应的唇形风格上，并将带有唇形风格的唇形特征输入至所述目标多层感知器中进行处理。 5.根据权利要求1所述的3D数字人的语音驱动方法，其特征在于，所述目标表情预测模型的训练过程，包括：获取人脸视频数据集，并提取所述人脸视频数据集中每个视频数据的每帧视频对应的样本语音信号和真实表情参数；确定初始表情预测模型，所述初始表情预测模型包括初始语音编码模块、初始3D解码网络和初始多层感知器；利用所述初始语音编码模块生成与所述样本语音信号对应的预测音频特征后，通过所述初始3D解码网络提取所述样本语音信号对应的视频帧中的预测嘴形图像；通过所述初始多层感知器将所述预测嘴形图像转化为3D数字人的人脸不同区域的预测表情参数；以所述预测音频特征与所述预测嘴形图像同步、所述预测表情参数趋近于所述真实表情参数为目标，对所述初始表情预测模型的参数进行更新；当达到预设的第一训练条件时，将训练后的初始表情预测模型作为目标表情预测模型。 6.根据权利要求5所述的3D数字人的语音驱动方法，其特征在于，所述以所述预测音频特征与所述预测嘴形图像同步、所述预测表情参数趋近于所述真实表情参数为目标，对所述初始表情预测模型的参数进行更新，包括：利用预设的目标音唇同步模型计算所述预测音频特征与所述预测嘴形图像之间的生成器损失；利用预设的全局及局部损失函数计算所述预测表情参数与所述真实表情参数之间的表情损失；根据所述生成器损失和所述表情损失对所述初始表情预测模型的参数进行更新。 7.根据权利要求6所述的3D数字人的语音驱动方法，其特征在于，所述利用预设的目标音唇同步模型计算所述预测音频特征与所述预测嘴形图像之间的生成器损失，包括：获取目标音唇同步模型，所述目标音唇同步模型包括目标音频同步编码模块和目标唇形同步编码模块；通过所述目标音频同步编码模块提取所述预测音频特征中的音频同步特征，以及，通过所述目标唇形同步编码模块提取所述预测嘴形图像中的唇形同步特征；获取所述目标音唇同步模型在训练阶段计算得到的、与所述样本语音信号对应的视频数据的多个同步损失值；对多个同步损失值进行对数运算后，将对数运算结果作为所述音频同步特征与所述唇形同步特征之间的生成器损失。 8.根据权利要求7所述的3D数字人的语音驱动方法，其特征在于，所述目标音唇同步模型的训练过程，包括：提取所述人脸视频数据集中每个视频数据的每帧视频对应的样本音频和样本嘴形图像；确定初始音唇同步模型，所述初始音唇同步模型包括初始音频同步编码模块和初始唇形同步编码模块；通过所述初始音频同步编码模块提取所述样本音频中的预测音频同步特征，以及，通过所述初始唇形同步编码模块提取所述样本嘴形图像中的预测唇形同步特征；以所述预测音频同步特征与所述预测唇形同步特征具有同步关系为目标，对所述初始音唇同步模型的参数进行更新；当达到预设的第二训练条件时，将训练后的初始音唇同步模型作为目标音唇同步模型。 9.根据权利要求8所述的3D数字人的语音驱动方法，其特征在于，所述以所述预测音频同步特征与所述预测唇形同步特征具有同步关系为目标，对所述初始音唇同步模型的参数进行更新，包括：利用预设的余弦损失函数计算所述预测音频同步特征与所述预测唇形同步特征之间的同步损失值；根据所述同步损失值对所述初始音唇同步模型的参数进行更新。 10.根据权利要求6所述的3D数字人的语音驱动方法，其特征在于，所述预测表情参数包括预测3D顶点坐标和预测嘴部三角面法线，所述真实表情参数包括真实3D顶点坐标和真实嘴部三角面法线；所述利用预设的全局及局部损失函数计算所述预测表情参数与所述真实表情参数之间的表情损失，包括：通过预设的全局损失函数计算所述预测3D顶点坐标与所述真实3D顶点坐标之间的全局损失；通过预设的局部损失函数计算所述预测嘴部三角面法线与所述真实嘴部三角面法线之间的局部损失。 11.根据权利要求10所述的3D数字人的语音驱动方法，其特征在于，所述预测嘴部三角面法线的生成过程，包括：提取所述预测3D顶点坐标中嘴部的顶点坐标，并形成嘴部顶点坐标集合；将所述嘴部顶点坐标集合中相邻的三个顶点组成一个三角面，得到多个三角面；计算每个三角面的法线后，形成预测嘴部三角面法线。 12.根据权利要求10或11所述的3D数字人的语音驱动方法，其特征在于，所述真实嘴部三角面法线的生成过程，包括：获取所述预测嘴部三角面法线中各个三角面的法线；使用ICP算法将各个法线进行统一变换并对齐后，得到对齐结果；根据所述对齐结果确定所述真实3D顶点坐标中与所述预测嘴部三角面法线对应的真实嘴部三角面法线。 13.根据权利要求2所述的3D数字人的语音驱动方法，其特征在于，所述利用所述目标语音编码模块生成与所述语音信号对应的音频特征之前，还包括：对所述语音信号进行预处理，并将预处理后的语音信号进行快速傅里叶变换，得到对应的功率谱；将MEL滤波器组应用于所述功率谱，并求取所述MEL滤波器组能量的对数后，对所述MEL滤波器组能量的对数进行离散余弦变换，得到所述MEL滤波器组的DCT系数；将所述DCT系数第2～13维的数值保留，其他维度的数值丢弃，得到所述语音信号对应的MFCC特征，并将所述MFCC特征作为所述目标语音编码模块的输入特征。 14.根据权利要求5所述的3D数字人的语音驱动方法，其特征在于，所述利用所述初始语音编码模块生成与所述样本语音信号对应的音频特征之前，还包括：对所述样本语音信号进行预处理，并将预处理后的样本语音信号进行快速傅里叶变换，得到对应的功率谱；将MEL滤波器组应用于所述功率谱，并求取所述MEL滤波器组能量的对数后，对所述MEL滤波器组能量的对数进行离散余弦变换，得到所述MEL滤波器组的DCT系数；将所述DCT系数第2～13维的数值保留，其他维度的数值丢弃，得到所述样本语音信号对应的MFCC特征，并将所述MFCC特征作为所述初始语音编码模块的输入特征。 15.一种3D数字人的语音驱动装置，其特征在于，包括：数据获取模块，用于获取目标用户输入的语音信号，以及目标表情预测模型，其中，所述目标表情预测模型包括目标语音编码模块、目标3D解码网络和目标多层感知器；表情参数确定模块，用于将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理后，得到与所述语音信号同步的、3D数字人的人脸不同区域的表情参数；数字人驱动模块，用于利用所述语音信号以及所述3D数字人的人脸不同区域的表情参数，驱动所述3D数字人说话。 16.一种存储介质，其特征在于：所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至14中任一项所述3D数字人的语音驱动方法的步骤。 17.一种计算机设备，其特征在于，包括：一个或多个处理器，以及存储器；所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如权利要求1至14中任一项所述3D数字人的语音驱动方法的步骤。

专利专题