用于神经网络模型的分布式训练的系统和方法

引用

摘要：

描述了用于神经网络模型的分布式训练的系统和方法。各种实施例包括主设备和从设备。主设备具有第一版神经网络模型。根据一个实施例，从设备通信地耦合到第一数据源和主设备，并且主设备无法访问第一数据源。从设备远离主设备。主设备被配置为基于第一版神经网络模型来输出神经网络模型的第一配置数据。从设备被配置为使用第一配置数据来实例化第二版神经网络模型。从设备被配置为使用来自第一数据源的数据来训练第二版神经网络模型，并被配置为输出神经网络模型的第二配置数据。主设备被配置为使用第二配置数据来更新第一版神经网络模型的参数。

专利类型：发明专利

申请/专利号：CN202011464843.9

申请日期：2020-12-14

公开/公告号：CN113066484A

公开/公告日：2021-07-02

主分类号：G10L15/06(2013.01)

申请/专利权人:声音猎手公司

发明/设计人:李自力;阿希尔·阿米尔古利耶夫;普仲朗

主申请人地址:美国加利福尼亚州

专利代理机构:北京东方亿思知识产权代理有限责任公司

代理人:杨佳婧

国别省市代码:美国;US

权利要求：

1.一种用于训练神经网络模型的分布式系统，该系统包括：主设备，其包括第一版神经网络模型；和从设备，其通信地耦合到第一数据源和所述主设备，第一数据源无法被所述主设备访问，其中，所述从设备远离所述主设备，其中，所述主设备被配置为基于第一版神经网络模型来输出神经网络模型的第一配置数据，其中，所述从设备被配置为使用第一配置数据来实例化第二版神经网络模型，其中，所述从设备被配置为使用来自第一数据源的数据来训练第二版神经网络模型，其中，所述从设备输出神经网络模型的第二配置数据，并且其中，所述主设备被配置为使用第二配置数据来更新第一版神经网络模型的参数。 2.如权利要求1所述的分布式系统，其中，所述从设备被配置为使用第一配置数据来将第一版神经网络模型实例化为教师模型并将第二版神经网络模型实例化为学生模型，所述教师模型用于训练所述学生模型。 3.如权利要求1所述的分布式系统，其中，所述主设备被配置为使用第二配置数据来将第二版神经网络模型实例化为教师模型并将第一版神经网络模型实例化为学生模型，所述教师模型用于训练所述学生模型并更新第一版神经网络模型的参数。 4.如权利要求1所述的分布式系统，其中，第一配置数据包括第一版神经网络模型的参数。 5.如权利要求4所述的分布式系统，其中，第二配置数据包括第二版神经网络模型的参数。 6.如权利要求4所述的分布式系统，其中，第二配置数据包括梯度数据。 7.如权利要求1所述的分布式系统，其中，所述主设备通信地耦合到第一网络并且所述从设备通信地耦合到第二网络，第一网络和第二网络是异构的并且通过一个或多个不可信设备而通信地耦合。 8.如权利要求1所述的分布式系统，还包括多个从设备，每个从设备与所述主设备通信，其中，所述主设备被配置为使用由所述多个从设备中的每个从设备输出的第二配置数据来更新第一版神经网络模型的参数。 9.如权利要求8所述的分布式系统，其中，所述主设备被配置为使用由所述多个从设备中的每个从设备输出的第二配置数据来实例化第二版神经网络模型的集合体并使用该集合体来训练第一版神经网络模型。 10.如权利要求8所述的分布式系统，其中，所述主设备被配置为使用从由所述多个从设备中的每个从设备输出的第二配置数据得出的聚合数据来更新第一版神经网络模型的参数。 11.如权利要求8所述的分布式系统，其中，所述主设备和所述多个从设备根据定义的图模型通信地耦合。 12.如权利要求8所述的分布式系统，其中，第二配置数据包括来自所述多个从设备中的每个从设备的梯度数据，并且所述主设备被配置为比较来自所述多个从设备中的每个从设备的梯度数据以基于该比较来选择性地更新第一版神经网络模型的参数。 13.如权利要求1所述的分布式系统，其中，所述主设备通信地耦合到无法被所述从设备访问的第二数据源，并且所述主设备被配置为使用来自第二数据源的数据来训练第一版神经网络模型。 14.如权利要求1所述的分布式系统，其中，所述从设备包括至少一个处理器以执行在存储器中存储的二进制可执行文件，并且所执行的二进制可执行文件被配置为独立于所述主设备来加载第一配置数据和实例化第二版神经网络模型。 15.如权利要求14所述的分布式系统，其中，所执行的二进制可执行文件被配置为输出第二配置数据并控制向所述主设备的发送。 16.如权利要求1所述的分布式系统，其中，神经网络模型形成语音识别流水线的一部分，并且第一数据源存储音频数据。 17.如权利要求16所述的分布式系统，其中，所述从设备被配置为利用音频噪声来增强来自第一数据源的音频数据。 18.如权利要求1所述的分布式系统，其中，第一配置数据包括神经网络模型的超参数和第一版神经网络模型的参数。 19.如权利要求18所述的分布式系统，其中，所述超参数包括以下各项中的一个或多个：神经网络模型的架构定义；神经网络模型中的一层或更多层的节点数量；一组节点定义，其包括节点类型和节点连接性中的至少一个；一组激活函数定义；和至少一个成本函数定义。 20.如权利要求18所述的分布式系统，其中，所述参数包括以下各项中的至少一个：神经网络模型的节点之间的至少一个连接的权重值；神经网络模型的至少一个输入的权重值；神经网络模型中的至少一个递归路径的权重值；和神经网络模型的至少一个节点的偏置值。 21.如权利要求1所述的分布式系统，其中，第二配置数据包括梯度数据，并且所述主设备被配置为基于第二配置数据的龄期对所述梯度数据进行加权。 22.如权利要求1所述的分布式系统，其中，第二配置数据包括梯度数据，并且所述主设备被配置为将来自第二配置数据的梯度数据与使用第一版神经网络模型确定的梯度数据进行比较，并被配置为基于该比较来选择性地更新第一版神经网络模型的参数。 23.一种训练神经网络模型的方法，该方法包括：在主设备处基于第一版神经网络模型来生成神经网络模型的第一配置数据；从所述主设备向从设备发送第一配置数据，所述从设备远离所述主设备并且可以访问无法被所述主设备访问的第一数据源；在所述主设备处从所述从设备接收神经网络模型的第二配置数据，第二配置数据基于在所述从设备处实例化的第二版神经网络模型，第二配置数据是在来自第一数据源的数据上进行训练之后在所述从设备处生成的；和基于第二配置数据来更新第一版神经网络模型的参数。 24.如权利要求23所述的方法，其中，第二配置数据包括在训练之后的第二版神经网络模型的参数，并且所述更新包括：使用第二配置数据将第二版神经网络模型实例化为教师模型；将第一版神经网络模型实例化为学生模型；和使用所述教师模型来训练所述学生模型以更新第一版神经网络模型的参数。 25.如权利要求23所述的方法，还包括：从多个从设备接收第二配置数据；将第二版神经网络模型的集合体实例化为教师模型的集合体；和使用所述教师模型的集合体来训练所述学生模型。 26.如权利要求23所述的方法，其中，第一配置数据包括第一版神经网络模型的参数并且第二配置数据包括梯度数据，并且所述方法还包括：使用所述梯度数据来更新第一版神经网络模型的参数。 27.如权利要求23所述的方法，还包括在所述主设备处使用来自第二数据源的数据来训练第一版神经网络模型，第二数据源无法被所述从设备访问。 28.一种主设备，包括：存储设备，用于存储第一版神经网络模型的参数数据；存储器，用于存储计算机程序代码，该计算机程序代码被配置为实现分布式训练操作；网络接口，用于与从设备通信，所述从设备远离所述主设备；和至少一个处理器，其被配置为执行在存储器中存储的计算机程序代码以执行以下操作：基于第一版神经网络模型来生成神经网络模型的第一配置数据；经由所述网络接口将第一配置数据发送到所述从设备，所述从设备能够访问无法被所述主设备访问的第一数据源；经由所述网络接口从所述从设备接收神经网络模型的第二配置数据，第二配置数据基于使用第一配置数据在所述从设备处实例化的第二版神经网络模型，第二配置数据是在来自第一数据源的数据上进行训练之后在所述从设备处生成的；和基于第二配置数据来更新第一版神经网络模型的参数数据。 29.一种非暂时性计算机可读存储介质，其存储指令，所述指令当被至少一个处理器执行时使所述至少一个处理器执行以下操作：基于第一版神经网络模型来生成神经网络模型的第一配置数据；将第一配置数据发送到从设备，所述从设备能够访问无法被所述至少一个处理器访问的第一数据源；从所述从设备接收神经网络模型的第二配置数据，第二配置数据基于第二版神经网络模型，第二版神经网络模型是基于第一配置数据在所述从设备处实例化的，第二配置数据是在来自第一数据源的数据上进行训练之后在所述从设备处生成的；和基于第二配置数据来更新第一版神经网络模型的参数数据。

专利专题