一种具有视听感知能力的实时对话型数字分身生成方法

引用

摘要：

本发明属于图像语音生成领域，提出一种具有视听感知能力的实时对话型数字分身生成方法：在训练和预处理阶段录制真人原型的音视频素材并进行预处理，使用音视频素材训练语音合成模型、唇形生成模型和面部增强模型；在数字分身生成阶段建立缓冲区，经过感知与回答、唇形同步、面部增强和音视频输出四个步骤，生成实时对话的数字分身。本发明能够合成高保真的数字分身，实现与用户的实时交互对话。

专利类型：发明专利

申请/专利号：CN202310841473.3

申请日期：2023-07-11

公开/公告号：CN117475986A

公开/公告日：2024-01-30

主分类号：G10L13/02(2013.01)

申请/专利权人:北京航空航天大学%北京航空航天大学江西研究院

发明/设计人:百晓;李嘉禾;吴禹辰;郑锦

主申请人地址:100191 北京市海淀区学院路37号;

国别省市代码:北京;11

权利要求：

1.一种具有视听感知能力的实时对话型数字分身生成方法，其特征在于，步骤如下：在训练和预处理阶段录制音视频素材并进行预处理，使用音视频素材训练语音合成模型、唇形生成模型和面部增强模型；在数字分身生成阶段建立缓冲区，经过感知与回答、唇形同步、面部增强和音视频输出四个步骤，生成实时对话的数字分身。 2.根据权利1所述的数字分身生成方法，其特征在于，训练和预处理阶段录制音视频素材并进行预处理，包括：在相同的硬件条件和环境下录制数字分身的真人原型人物的音视频素材，包括语音音频、驱动视频、动作视频和训练音视频，其中，所述语音音频为一段该真人原型朗读预先准备的文本语料的音频内容，驱动视频为一段该真人原型人物在自然状态下无大幅度面部动作且双手保持在身体指定位置的视频，所述动作视频为多段所述真人原型人物表现各种手势动作的视频，其中的手势动作将作为动作插入时的预置动作，每段动作的开始和结束时刻该人物的双手均需保持在所述驱动视频中双手保持的指定位置处，以便于与驱动视频过渡，所述训练音视频为一段或多段该真人原型人物在自然状态下进行朗读的音视频；预处理包括：指定视频帧率，并将所有视频素材调整至该帧率；使用现有的插帧模型，以驱动视频的最后一帧为起始帧，驱动视频的第一帧为终止帧进行插帧，获得一组由插帧模型合成的、能够使驱动视频首尾自然过渡的合成帧，并按时间顺序置入驱动视频的尾部，具体地，假设驱动视频的最后一帧为第N帧，则将起始帧至终止帧间插帧得到的共k帧合成帧依次视为第N+1至N+k帧；定义一组肢体动作的触发关键词，确定各个关键词所对应的动作视频；定义一组动作-回答关系，确定当数字分身系统接收到用户各种肢体动作交互输入时，所对应的固定回答的语音的文本。 3.根据权利1所述的数字分身生成方法，其特征在于，使用音视频素材训练语音合成模型、唇形生成模型和面部增强模型，包括：使用所述语音音频和所述文本语料对现有的经公开大型语音数据集预训练的语音合成模型进行微调，得到所述语音合成模型，该语音合成模型的输入为文本，输出为文本对应的音频和音频的梅尔频谱；提取训练音视频的音频，将该音频转化为帧率与所述视频帧率相同的梅尔频谱特征，使用所述训练音视频的RGB帧和训练音视频中音频的梅尔频谱特征，对现有的经公开的大量音视频数据预训练的音频驱动的唇形同步模型进行微调，得到所述唇形生成模型；将所述训练音视频中音频的梅尔频谱和驱动视频输入所述唇形生成模型，得到低分辨率、与训练音视频中音频同步的合成视频，使用该合成视频和训练音视频中的视频，分别作为源数据和目标数据训练现有的人脸替换网络，即得到所述面部增强模型。 4.根据权利1所述的数字分身生成方法，其特征在于，在数字分身生成阶段建立缓冲区，包括：提取驱动视频的所有RGB帧，并按时间先后顺序从小到大标记序号；建立肢体动作视频帧队列、待增强队列、音频队列、梅尔频谱队列、音频标记队列和输出队列作为缓冲区，其中肢体动作视频帧队列存放肢体动作视频帧，待增强队列存放待进行面部增强的视频帧，音频队列存放待播放的音频，梅尔频谱队列存放待播放音频的梅尔频谱特征，音频标记队列用于存放指示是否应开始播放音频的布尔标记，输出队列存放经面部增强后用于最终输出的视频帧。 5.根据权利1所述的数字分身生成方法，其特征在于，感知与回答，包括：监听获取实时的音频数据，摄像头采集用户的视频数据，根据音频响度判断音频数据中是否存在语音交互信息，根据现有的人体关键点识别模型判断视频数据中是否存在交互动作及识别交互动作的种类： 1)若存在所述语音交互信息或交互动作：根据语音交互信息或交互动作进行文本回复，获得数字分身的回答文本；将所述回答文本输入经训练得到的所述语音合成模型，合成回答音频和音频的梅尔频谱，将所合成的回答音频置入音频队列，按照所述视频帧率切分得到与驱动视频帧长相同的音频帧，将各音频帧的梅尔频谱特征依次置入梅尔频谱队列，建立音频标记序列，序列长度为音频帧的帧数，其中首个标记的值为真，用于表示该标记所对应的时刻为音频起始时刻，其余标记的值为假，将序列中的音频标记依次置入音频标记队列；使用现有的分词模型对所述回答文本进行分词，根据分词结果进行肢体动作插入，获得肢体动作视频帧序列，将肢体动作视频帧序列依次置入肢体动作视频帧队列； 2)若不存在所述语音交互信息或交互动作，则代表数字分身不需要生成回答或肢体动作，取用最长时间未被使用的且序号最小的一帧驱动视频帧，将该驱动视频帧置入肢体动作视频帧队列，在音频标记队列中置入一个值为假的标记，在梅尔频谱队列中置入一个值为空的特征，用于表示该时间段内无音频内容。 6.根据权利1所述的数字分身生成方法，其特征在于，唇形同步，包括：从梅尔频谱队列中取出队列头部的梅尔频谱特征，从肢体动作视频帧队列中取出队列头部的肢体动作视频帧，对梅尔频谱特征进行判断： 1)若该梅尔频谱特征不为空，则将梅尔频谱特征与肢体动作视频帧输入所述唇形生成模型，合成与该梅尔频谱特征所对应的音频帧同步的唇形同步视频帧，将该唇形同步视频帧置入待增强队列； 2)若该梅尔频谱特征为空，则代表不需要进行唇形同步，直接将该肢体动作视频帧置入待增强队列。 7.根据权利1所述的数字分身生成方法，其特征在于，面部增强，包括：从待增强队列中取出队列头部的待增强视频帧，将待增强视频帧输入所述面部增强模型，获得面部清晰度更高的增强视频帧，将增强视频帧置入输出队列。 8.根据权利1所述的数字分身生成方法，其特征在于，音视频输出，包括：从输出队列中取出队列头部的增强视频帧，显示增强视频帧，并根据所述视频帧率确定显示持续时间，从音频标记队列中取出头部的音频标记，并进行判断：若音频标记值为真，则从音频队列中取出队列头部的音频，开始异步播放该音频，实现音画同步；若音频标记值为假，则不进行额外操作。 9.根据权利5所述的数字分身生成方法，其特征在于，根据语音交互信息或交互动作进行文本回复，获得数字分身的回答文本，包括：若存在语音交互信息，则使用现有的语音识别模型将语音实时转化为文本，将所转化的文本输入已有的问答语言模型，得到所述回答文本；若只存在交互动作，则使用现有的动作识别模型识别该动作，并按照所述动作-回答关系进行匹配，得到所述回答文本。 10.根据权利5所述的数字分身生成方法，其特征在于，根据分词结果进行肢体动作插入，获得肢体动作视频帧序列，包括：取最长时间未被使用的且序号最小的一帧驱动视频帧作为待使用驱动视频帧，使用所述触发关键词对所述分词结果进行匹配；若匹配成功，则使用现有的插帧模型，分别以肢体动作视频帧队列的最后一帧和被匹配的关键词所对应的动作视频的第一帧作为起始帧和终止帧进行插帧，以该动作视频的最后一帧和所述待使用驱动视频帧作为起始帧和终止帧进行插帧，实现已在肢体动作视频帧队列中的肢体动作视频帧、被匹配的关键词所对应的动作视频帧、待使用驱动视频帧间的不连续的图像内容的平滑过渡，将插帧模型生成的帧、动作视频帧和所获得的驱动视频帧按时间顺序组合成为肢体动作视频帧序列；若无关键词匹配成功，则将所述待使用驱动视频帧作为长度为1的肢体动作视频帧序列。

专利专题