一种基于文字转语音技术进行视频配音的方法

引用

摘要：

本发明公开了视频处理技术领域的一种基于文字转语音技术进行视频配音的方法，该种基于文字转语音技术进行视频配音的方法为：S1：选择携带视频录制软件的硬件进行视频的录制，预先设置录像参数，录制速率为20帧～25帧，保证录制环境的稳定，降低录制现场杂音低，视频画面无明显的晃动失真情况；S2：借助网络云服务器来设定数据库，数据库与TTS服务器连接，该种基于文字转语音技术进行视频配音的方法，借助TTS技术并增设数据库，数据库中可内置多种语音规格，自主选择的可编辑性强，在进行文字转语音操作时，可灵活选配不同规格的语音，快速达到文字转语音的过程，也增加了配音过程的多样性，适用多类型的视频处理，提高了处理效率。

专利类型：发明专利

申请/专利号：CN202011377101.2

申请日期：2020-11-30

公开/公告号：CN112397049A

公开/公告日：2021-02-23

主分类号：G10L13/04(2013.01)

申请/专利权人:长沙神漫文化科技有限公司

发明/设计人:张贤华

主申请人地址:410000 湖南省长沙市岳麓区岳麓街道麻园路中建智慧谷产业园一区3号栋

专利代理机构:安化县梅山专利事务所

代理人:潘访华

国别省市代码:湖南;43

权利要求：

1.一种基于文字转语音技术进行视频配音的方法，其特征在于：该种基于文字转语音技术进行视频配音的方法为： S1：选择携带视频录制软件的硬件进行视频的录制，预先设置录像参数，录制速率为20帧～25帧，保证录制环境的稳定，降低录制现场杂音低，视频画面无明显的晃动失真情况； S2：借助网络云服务器来设定数据库，数据库与TTS服务器连接，数据库中内置多种语音规格，包括男声、女声、男童声、女童声和软件变种声等，数据库具有上传通道和下载通道，数据库自备存储端； S3：对录制后的原视频文件进行播放检查，确定无杂音、断点、录制空白或晃动情况，将检查后的原视频文件导出，并插入配音的文字文本； S4：将S3中的文字文本传输到数据库，利用数据库连接TTS服务器后进行文字转语音操作，过程中可按照不同的语音规格进行声音的调整，以形成配音文件，并把配音文件回传至文字文本的位置，并插入空白音频； S5：进行音频的合成，将配音文件和空白音频进行结合，以形成合成音频文件； S6：进行音频的润饰，利用润饰软件把音频拖拽到软件中，对于平衡不对称和音差较大的音量参数进行调整，对破音、特高音进行压制，并对音频力度欠佳的部分进行增强； S7：再次打开润饰后的音频进行参数调整，低音增强的过程中增幅控制在2dB～7dB之间，并进行预播检查； S8：将润湿后的音频和视频文件进行混合，达到合成文件。 2.根据权利要求1所述的一种基于文字转语音技术进行视频配音的方法，其特征在于：步骤S1中，所述视频录制方法包括手机录制、摄像机录制、电脑录制和照相机录制。 3.根据权利要求2所述的一种基于文字转语音技术进行视频配音的方法，其特征在于：所述数据库中具有分类文件夹，以按照不同的音频内容进行文件的分类，便于内置、检索和维护。 4.根据权利要求3所述的一种基于文字转语音技术进行视频配音的方法，其特征在于：步骤S5中，所述合成音频文件处理前需对配音文件的音量进行调整。 5.根据权利要求4所述的一种基于文字转语音技术进行视频配音的方法，其特征在于：步骤S4中，所述语音规格的调整，需要保持人物性别和特征与语音规格相匹配。 6.根据权利要求5所述的一种基于文字转语音技术进行视频配音的方法，其特征在于：步骤S2中，所述软件变种声包括卡通人物声、机械声、特效声和模拟动物声。 7.根据权利要求6所述的一种基于文字转语音技术进行视频配音的方法，其特征在于：所述数据库与TTS服务器的连接过程包括蓝牙、WIFI、物联网和5G。

专利专题