一种视频翻译方法、系统、装置及存储介质
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种视频翻译方法、系统、装置及存储介质

引用
本发明公开了一种视频翻译方法、系统、装置及存储介质,其中方法包括以下步骤:获取视频数据;对所述视频数据进行语音分割,获得语音片段以及与所述语音片段对应的视频片段;对所述语音片段进行语音识别,获得第一文本,对所述第一文本进行翻译,获得第二文本;根据所述第二文本获取合成语音,通过调整所述合成语音和与之对应的所述视频片段,使所述合成语音与所述视频片段匹配;检测并调整所述视频片段中的唇形,以使所述唇形与所述合成语音同步匹配。本发明实现了对视频自动翻译的功能,能够生成目标语言声音的音频,并生成声音与唇形匹配的视频,解决了不同语种间的交流障碍,无需人工配音,降低了翻译成本,可广泛应用于视频处理领域。

发明专利

CN202011375314.1

2020-11-30

CN112562721A

2021-03-26

G10L21/10(2013.01)

清华珠三角研究院

王伦基;叶俊杰;李权;成秋喜;胡玉针;李嘉雄;朱杰;韩蓝青

510530 广东省广州市黄埔区香雪八路98号香雪国际公寓F栋

广州嘉权专利商标事务所有限公司

常柯阳

广东;44

1.一种视频翻译方法,其特征在于,包括以下步骤: 获取视频数据; 对所述视频数据进行语音分割,获得语音片段以及与所述语音片段对应的视频片段; 对所述语音片段进行语音识别,获得第一文本,对所述第一文本进行翻译,获得第二文本; 根据所述第二文本获取合成语音,通过调整所述合成语音和与之对应的所述视频片段,使所述合成语音与所述视频片段匹配; 检测并调整所述视频片段中的唇形,以使所述唇形与所述合成语音同步匹配; 其中,所述语音片段记录有起始时间和说话人编号。 2.根据权利要求1所述的一种视频翻译方法,其特征在于,所述对所述视频数据进行语音分割,获得语音片段以及与所述语音片段对应的视频片段,包括: 从所述视频数据中获取音频数据,根据所述音频数据获取语音数据; 对所述语音数据进行分割,获得多个所述语音片段,根据所述语音片段获取与之时间上对应的所述视频片段; 提取所述语音片段的特征向量,对提取到的所述特征向量进行聚类,确定说话人的数量,以及为每一个说话人配置编号; 记录每一个所述语音片段的所述起始时间和所述说话人编号。 3.根据权利要求1所述的一种视频翻译方法,其特征在于,所述根据所述第二文本获取合成语音,包括: 将所述第二文本输入训练好的多对多模型,获得待转换音频; 分离所述语音片段的内容特征以提取说话人特征; 将所述说话人特征与所述待转换音频的内容特征相结合获得频谱图,采用声码器将所述频谱图生成合成语音。 4.根据权利要求1所述的一种视频翻译方法,其特征在于,所述根据所述第二文本获取合成语音,包括: 预先训练获得说话人风格模型,将说话人编号输入所述说话人风格模型,输出说话人风格编码向量; 根据所述第二文本获取字符发音编码向量,将所述字符发音编码向量与所述说话人风格编码向量进行拼接,获得拼接向量; 将所述拼接向量输入预先训练好的解码模型进行解码,获得声音频谱图,采用声码器将所述声音频谱图生成合成语音。 5.根据权利要求1所述的一种视频翻译方法,其特征在于,所述通过调整所述合成语音和与之对应的所述视频片段,使所述合成语音与所述视频片段匹配,包括 比较所述合成语音的时间长度和所述视频片段的时间长度,确定变速参数; 对所述视频片段中的人物动作进行检测,根据动作幅度大小调整所述变速参数; 根据调整后的所述变速参数对合成语音和所述视频片段进行调整,以使所述合成语音的时间长度和所述视频片段的时间长度一致。 6.根据权利要求1所述的一种视频翻译方法,其特征在于,所述检测并调整所述视频片段中的唇形,以使所述唇形与所述合成语音同步匹配,包括: 对所述视频片段中说话人的人脸区域进行检测,获得人脸位置信息; 将所述人脸位置信息向下巴方向延伸多个像素,获取人脸区域图像; 将所述人脸区域图像中包含唇形的下半部分的像素全置于0,以及从所述人脸区域图像选择参考帧,所述参考帧用于编码人物特征信息; 将像素处理后的所述人脸区域图像和所述参考帧进行编码,获得第一个n维的向量,将所述合成语音进行编码,获得第二个n维的向量; 将两个n维的向量进行拼接,将拼接后的向量输入基于生成对抗网络的人物唇形生成模型,获得上半部分与原始图像一致,下半部分与所述合成语音同步的唇形。 7.根据权利要求6所述的一种视频翻译方法,其特征在于,所述对所述视频片段中说话人的人脸区域进行检测,获得人脸位置信息,包括: 采用比较连续帧的颜色直方图的方法进行镜头检测,将所述视频片段切分成多个镜头; 采用第一预设模型对所述镜头进行人脸检测,得到每个所述镜头的每一帧的人脸框; 采用交并比的计算方法,对检测到的所述人脸框进行分组并平滑处理; 采用第二预设模型对分好组的所述人脸框及所述人脸框对应的所述语音片段进行同步检测,获得人脸位置信息。 8.一种视频翻译系统,其特征在于,包括: 数据获取模块,用于获取视频数据; 数据分割模块,用于对所述视频数据进行语音分割,获得语音片段以及与所述语音片段对应的视频片段; 语音翻译模块,用于对所述语音片段进行语音识别,获得第一文本,对所述第一文本进行翻译,获得第二文本; 长度调整模块,用于根据所述第二文本获取合成语音,通过调整所述合成语音和与之对应的所述视频片段,使所述合成语音与所述视频片段匹配; 唇形调整模块,用于检测并调整所述视频片段中的唇形,以使所述唇形与所述合成语音同步匹配; 其中,所述语音片段记录有起始时间和说话人编号。 9.一种视频翻译装置,其特征在于,包括: 至少一个处理器; 至少一个存储器,用于存储至少一个程序; 当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-7任一项所述的一种视频翻译方法。 10.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述的一种视频翻译方法。
相关文献
评论
法律状态详情>>
2021-03-26公开
2021-03-26公开
相关作者
相关机构