用于即时通话同声翻译的方法、设备及系统

引用

摘要：

本申请涉及一种用于即时通话同声翻译的方法、设备及系统，本申请中，在接收发送端发送的待处理数据后，由于待处理数据可能是音频数据，也可能是视频数据，所以需要对待处理数据进行预处理，得到待处理数据中的音频数据。对音频数据进行语种识别，并匹配对应的语言翻译模块进行翻译，本申请中，通过对音频数据进行性别识别和声纹分析，生成与音频数据性别和声纹匹配的模拟声音，通过模拟声音来模拟讲话者的声音向接收端发送语言翻译模块翻译后的音频数据，使收听者既能清楚明白的了解通话内容，也能对讲话者的声音和性别有一定的了解。

专利类型：发明专利

申请/专利号：CN202011073402.6

申请日期：2020-10-09

公开/公告号：CN112201224A

公开/公告日：2021-01-08

主分类号：G10L15/00(2013.01)

申请/专利权人:北京分音塔科技有限公司

发明/设计人:张明;关磊

主申请人地址:100089 北京市海淀区中关村大街28-1号6层659

专利代理机构:北京细软智谷知识产权代理有限责任公司

代理人:岳凤羽

国别省市代码:北京;11

权利要求：

1.一种用于即时通话同声翻译的方法，其特征在于，包括：接收发送端发送的待处理数据，对所述待处理数据进行预处理，得到所述待处理数据中的音频数据；对所述音频数据进行语种识别，并匹配对应的语言翻译模块进行翻译；对所述音频数据进行性别识别和声纹分析，生成与所述音频数据性别和声纹匹配的模拟声音；根据所述语言翻译模块翻译后的所述音频数据，基于所述模拟声音，生成所述模拟声音对应的模拟音频数据；将所述模拟音频数据发送到接收端。 2.根据权利要求1所述的方法，其特征在于，所述对所述待处理数据进行预处理，具体包括：若所述待处理数据为视频数据，则对所述视频数据进行音频流分离，获取所述视频数据中的音频数据。 3.根据权利要求2所述的方法，其特征在于，所述对所述待处理数据进行预处理，具体还包括：对所述音频数据进行放大和滤波处理。 4.根据权利要求1所述的方法，其特征在于，还包括：对所述音频数据进行性别识别和声纹分析，在预先建立的声纹数据库中获取与所述音频数据性别和声纹匹配的模拟声音。 5.根据权利要求1所述的方法，其特征在于，还包括：在确定通话循环进行时，将每次通话循环中产生的音频数据进行训练，生成与所述音频数据性别和声纹匹配的优化模拟声音。 6.根据权利要求5所述的方法，其特征在于，还包括：在每次通话循环结束后，将当前模拟声音替换为上次通话循环中生成的与所述音频数据性别和声纹匹配的优化模拟声音。 7.根据权利要求2所述的方法，其特征在于，还包括：若所述待处理数据为视频数据，基于所述语言翻译模块翻译后的所述音频数据，生成所述模拟声音对应的文字数据；将所述文字数据发送到所述接收端。 8.一种用于即时通话同声翻译的设备，其特征在于，包括：处理器和存储器；所述处理器与存储器通过通信总线相连接：其中，所述处理器，用于调用并执行所述存储器中存储的程序；所述存储器，用于存储程序，所述程序至少用于执行权利要求1-7任一项所述的用于即时通话同声翻译的方法。 9.一种用于即时通话同声翻译的系统，其特征在于，包括：第一终端和第二终端；所述第一终端和所述第二终端无线通信连接；所述第一终端或所述第二终端内设置有如权利要求7所述的用于即时通话同声翻译的设备。 10.一种用于即时通话同声翻译的系统，其特征在于，包括：第一终端，第二终端和云端服务器；所述云端服务器分别与所述第一终端和所述第二终端无线通信连接；所述云端服务器内设置有如权利要求7所述的翻译设备。

专利专题