用于言语转换系统的分级编码器
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

用于言语转换系统的分级编码器

引用
本公开提供“用于言语转换系统的分级编码器”。描述了一种言语转换系统,其包括分级编码器和解码器。所述系统可以包括处理器和存储可由处理器执行的指令的存储器。指令可以包括:使用第二递归神经网络(RNN)(GRU1)和从谱图得到的第一组编码器向量作为第二RNN的输入,确定第二级联序列;通过将第二级联序列的堆叠高度加倍并且将长度减半来确定第二组编码器向量;使用第二组编码器向量,确定第三组编码器向量;并且使用注意力块对第三组编码器向量进行解码。

发明专利

CN202010597958.9

2020-06-28

CN112233645A

2021-01-15

G10L13/02(2013.01)

福特全球技术公司

普纳杰·查克拉瓦蒂;丽莎·斯卡里亚;瑞恩·伯克;弗朗索瓦·沙雷特;普拉韦恩·纳拉亚南

美国密歇根州迪尔伯恩市

北京连和连知识产权代理有限公司

张涛%陈黎明

美国;US

1.一种言语转换系统,其包括: 处理器;以及 存储器,所述存储器存储能由所述处理器执行的指令,所述指令包括: 使用第二递归神经网络(RNN)(GRU1)和从谱图得到的第一组编码器向量作为所述第二RNN的输入,确定第二级联序列; 通过将所述第二级联序列的堆叠高度加倍并且将长度减半来确定第二组编码器向量; 使用所述第二组编码器向量,确定第三组编码器向量;并且 使用注意力块对所述第三组编码器向量进行解码。 2.如权利要求1所述的系统,其中所述指令还包括,在确定所述第二级联序列之前: 使用第一RNN(GRU0)和多个预处理的编码器向量作为所述第一RNN的输入,确定第一级联序列;并且 通过将所述第一级联序列的堆叠高度加倍并将长度减半来确定所述第一组编码器向量。 3.如权利要求2所述的系统,其中所述第一和第二RNN是门控递归单元(GRU),并且每个都是双向传递。 4.如权利要求1所述的系统,其中所述处理器还使用第三RNN,其中所述第三RNN接收所述第二组编码器向量作为输入,并提供所述第三组编码器向量作为输出。 5.如权利要求4所述的系统,其中所述第三RNN是门控递归单元(GRU)并进行双向传递。 6.如权利要求1所述的系统,其中所述谱图是梅尔谱图。 7.如权利要求1所述的系统,其中所述谱图包括多个级联向量,其中所述谱图是言语话语的视觉表示。 8.如权利要求1所述的系统,其中所述指令还包括,在确定所述第二组编码向量之前: 基于所述输入并使用编码器预处理神经网络(PRENET)及卷积滤波器组和高速通道(CFBH)层,确定多个预处理的编码器向量;并且 使用第一RNN(GRU0)和所述多个预处理的编码器向量作为所述第一RNN的输入,确定所述第一组编码器向量。 9.如权利要求1所述的系统,其中所述指令还包括:在所述注意力块处,迭代地生成注意力上下文向量;并且提供所述注意力上下文向量。 10.如权利要求9所述的系统,其中所述指令还包括:通过将所述第三组编码器向量与先前最佳匹配向量进行比较,从所述第三组编码器向量中确定最佳匹配向量;并且为所述注意力块提供所述最佳匹配向量,以确定更新后的注意力上下文向量。 11.如权利要求1所述的系统,其中所述指令还包括: 在所述注意力块处:接收所述第三组编码向量中的一个作为输入; 在所述注意力块处:接收一组解码器隐藏向量中的至少一个作为输入; 在所述注意力块处:确定注意力上下文向量;以及 提供所述注意力上下文向量。 12.如权利要求1所述的系统,其中所述第三组编码向量是一组隐藏的编码器向量。 13.如权利要求1所述的系统,其中所述解码指令还包括: 通过在注意力递归神经网络(RNN)处接收第一组解码器向量作为输入,确定一组隐藏的解码器向量,其中所述第一组解码器向量中的至少一个包括注意力上下文向量与多个预处理的解码器向量中的至少一个的级联; 使用残差解码器堆叠和所述一组隐藏的解码器向量,确定一组解码器输出向量; 将所述一组解码器输出向量中的至少一个反馈为解码器预处理神经网络(PRENET)的输入;并且 使用所述解码器PRENET来确定和更新所述多个预处理的解码器向量。 14.如权利要求13所述的系统,其中所述解码指令还包括:响应于接收到更新后的注意力上下文向量,将所述一组解码器输出向量中的更新后的至少一个提供给所述解码器PRENET。 15.一种计算机程序产品,其包括计算机可读介质,所述计算机可读介质使如权利要求1-14中任一项所述的指令在存储器上存储且能由处理器执行。
相关文献
评论
法律状态详情>>
2021-01-15公开
相关作者
相关机构