语音翻译方法、装置、电子设备及计算机可读存储介质
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

语音翻译方法、装置、电子设备及计算机可读存储介质

引用
本申请提供了一种语音翻译方法、装置、电子设备及计算机可读存储介质,该方法包括:将待翻译语音信号进行切分,并提取切分后的每个语音片段的语音特征;对每个语音片段的语音特征进行语音编码,得到每个语音片段的编码结果;对每个语音片段的编码结果进行解码,得到每个语音片段所对应的目标语言的文本。基于本申请实施例所提供的方案,至少能够提高翻译准确性和翻译效率中的至少一个方面。

发明专利

CN201910906754.6

2019-09-24

CN112037768A

2020-12-04

G10L15/04(2013.01)

北京三星通信技术研究有限公司

涂眉;刘炜;张帆;刘松

100028 北京市朝阳区太阳宫中路12号楼15层1503

北京市立方律师事务所

张筱宁

北京;11

1.一种语音翻译方法,其特征在于,包括: 将待翻译语音信号进行切分,并提取切分后的每个语音片段的语音特征; 对每个语音片段的语音特征进行语音编码,得到每个语音片段的编码结果; 对每个语音片段的编码结果进行解码,得到每个语音片段所对应的目标语言的文本。 2.根据权利要求1所述的方法,其特征在于,所述对每个语音片段的语音特征进行语音编码,得到每个语音片段的编码结果,包括: 对于每个语音片段,确定该语音片段的前序语音片段的语义完整性; 若该语音片段的前序语音片段的语义不完整,则将该语音片段和该语音片段的前序语音片段进行合并,将合并后的语音片段所对应的语音特征进行语音编码,得到该语音片段的编码结果; 若该语音片段的前序语音片段的语义完整,则对该语音片段的语音特征进行语音编码,得到该语音片段的编码结果。 3.根据权利要求2所述的方法,其特征在于,所述将该语音片段和该语音片段的前序语音片段进行合并,将合并后的语音片段所对应的语音特征进行语音编码,得到该语音片段的编码结果,包括: 将该语音片段的语音特征和该语音片段的前序语音片段的语音特征进行合并,将合并后的语音特征作为合并后的语音片段的语音特征,对合并后的语音特征进行语音编码,得到该语音片段的编码结果。 4.根据权利要求2或3所述的方法,其特征在于,所述确定该语音片段的前序语音片段的语义完整性,包括以下至少一项: 根据该语音片段的前序语音片段的语义特征,确定该语音片段的前序语音片段的语义完整性; 根据该语音片段的语音特征和该语音片段的前序语音片段的语义特征,确定该语音片段的前序语音片段的语义完整性。 5.根据权利要求1至4中任一项所述的方法,其特征在于,所述对每个语音片段的语音特征进行语音编码,得到每个语音片段的编码结果,包括: 根据每个语音片段的语音特征,确定每个语音片段的特征向量; 基于每个语音片段的特征向量得到每个语音片段的编码结果。 6.根据权利要求5所述的方法,其特征在于,所述根据每个语音片段的语音特征,确定每个语音片段的特征向量,包括: 对于每个语音片段,通过至少两种卷积处理参数对语音片段的语音特征进行特征提取,并将通过至少两种卷积处理参数提取后的特征进行特征映射,得到特征向量。 7.根据权利要求6所述的方法,其特征在于,所述通过至少两种卷积处理参数对语音片段的语音特征进行特征提取,并将通过至少两种卷积处理参数提取后的特征进行特征映射,得到特征向量,包括: 确定语音片段的语音长度; 若语音长度大于长度阈值,则根据通过至少两种卷积处理参数对语音片段的语音特征进行特征提取,并将通过至少两种卷积处理参数提取后的特征进行特征映射,得到特征向量; 若语音长度不大于长度阈值,则将语音片段的语音特征进行融合,得到特征向量。 8.根据权利要求6或7所述的方法,其特征在于,所述通过至少两种卷积处理参数对语音片段的语音特征进行特征提取,并将通过至少两种卷积处理参数提取后的特征进行特征映射,包括: 通过至少两种卷积处理参数对语音片段的语音特征进行特征提取,并对提取后的特征进行下采样; 将下采样后的特征进行特征映射。 9.根据权利要求8所述的方法,其特征在于,所述长度阈值是根据下采样的采样率、下采样的次数、以及所述卷积处理参数中的至少一项确定的。 10.根据权利要求6至9中任一项所述的方法,其特征在于,通过至少两种卷积处理参数对语音片段的语音特征进行特征提取,包括: 通过至少一层卷积层对语音片段的语音特征进行特征提取,其中,至少一个卷积层包括至少两种卷积处理参数。 11.根据权利要求6至10中任一项所述的方法,其特征在于,所述卷积处理参数是根据以下信息中的至少一项确定的: 待翻译语音信号所对应的源语言的语速信息、提取切分后的每个语音片段的语音特征的提取速率; 其中,所述语速信息包括平均语速、最慢语速和最快语速中的至少一项。 12.根据权利要求6至11中任一项所述的方法,其特征在于,所述卷积处理参数包括卷积核的尺寸。 13.根据权利要求5至12中任一项所述的方法,其特征在于,所述基于每个语音片段的特征向量,得到每个语音片段的编码结果,包括: 对于每个语音片段,根据该语音片段的特征向量中每一维度的向量表示以及该维度的前序维度的向量表示,得到该维度所对应的隐层表示; 基于该语音片段的特征向量中每一维度所对应的隐层表示,得到该语音片段的编码结果。 14.根据权利要求13所述的方法,其特征在于,对于每个语音片段,根据该语音片段的特征向量中每一维度的向量表示以及该维度的前序维度的向量表示,得到该维度所对应的隐层表示,包括: 对于该语音片段的特征向量中的每一维度,根据该维度的向量表示、该维度的权重、该维度的每一前序维度的向量表示、以及每一前序维度的权重,得到该维度对应的隐层表示。 15.根据权利要求13所述的方法,其特征在于,对于每个语音片段的特征向量中的每一维度,根据该维度的向量表示、该维度的权重、该维度的每一前序维度的向量表示、以及每一前序维度的权重,得到该维度对应的隐层表示,包括: 根据该维度的向量表示、以及该维度的每一前序维度的向量表示,通过第一注意力网络,确定该维度的权重、以及该维度的每一前序维度的权重,并根据该维度的权重、以及每一前序维度的权重,对该维度的向量表示、以及该维度的每一前序维度的向量表示进行加权融合,得到该维度对应的隐层表示; 所述对每个语音片段的编码结果进行解码,得到每个语音片段所对应的目标语言的文本,包括: 对于每个语音片段,通过第二注意力网络,确定该语音片段的各前序语音片段所对应的目标语言的文本的特征向量、以及各所述前序语音片段所对应的目标语言的文本的特征向量的权重,并根据各权重对各所述前序语音片段所对应的目标语言的文本的特征向量进行加权融合,得到加权融合后的特征向量; 根据该语音片段的编码结果和所述加权融合后的特征向量,得到该语音片段所对应的目标语言的文本; 其中,所述第一注意力网络和所述第二注意力网络的对应网络层的模型参数相同。 16.根据权利要求1至15中任一项所述的方法,其特征在于,所述对每个语音片段的语音特征进行语音编码,得到每个语音片段的编码结果,包括: 基于每个语音片段的语音特征,通过残差网络,得到每个语音片段的编码结果; 其中,所述残差网络包括至少一个残差单元。 17.一种语音翻译装置,其特征在于,包括: 语音特征提取模块,用于将待翻译语音信号进行切分,并提取切分后的每个语音片段的语音特征; 编码模块,用于对每个语音片段的语音特征进行语音编码,得到每个语音片段的编码结果; 解码模块,用于对每个语音片段的编码结果进行解码,得到每个语音片段所对应的目标语言的文本。 18.一种电子设备,其特征在于,包括存储器和处理器; 所述存储器中存储有计算机程序; 所述处理器,用于调用所述计算机程序,以执行权利要求1至16中任一项所述的方法。 19.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至16中任一项所述的方法。
相关文献
评论
法律状态详情>>
2020-12-04公开
相关作者
相关机构