注册方法和设备、说话者识别方法和设备

下载全文

在线阅读

引用

摘要：

公开了注册方法和设备、说话者识别方法和设备。所述注册方法包括：接收说话者的语音信号；对接收的语音信号与噪声信号进行合成以生成合成信号；基于合成信号来生成特征向量；和基于生成的特征向量来构造与说话者对应的注册数据库(DB)。

专利类型：发明专利

申请/专利号：CN202010111275.8

申请日期：2020-02-24

公开/公告号：CN111667839A

公开/公告日：2020-09-15

主分类号：G10L17/04(2013.01)

申请/专利权人:三星电子株式会社

发明/设计人:朴成彦;金圭洪

主申请人地址:韩国京畿道水原市

专利代理机构:北京铭硕知识产权代理有限公司

代理人:王兆赓%张川绪

国别省市代码:韩国;KR

权利要求：

1.一种注册方法，包括：接收说话者的语音信号；对接收的语音信号与噪声信号进行合成，以生成合成信号；基于合成信号来生成特征向量；和基于生成的特征向量来构造与说话者对应的注册数据库。 2.根据权利要求1所述的注册方法，还包括：基于接收的语音信号来生成第二特征向量，其中，构造注册数据库的步骤包括：基于特征向量和第二特征向量中的任何一个或两者来构造注册数据库。 3.根据权利要求2所述的注册方法，其中，构造注册数据库的步骤包括：将包括特征向量和第二特征向量中的任何一个或两者的多个特征向量聚类成多个组；和提取与所述多个组中的至少一组对应的至少一个代表性特征向量。 4.根据权利要求2所述的注册方法，其中，第二特征向量基于没有合成的接收的语音信号。 5.根据权利要求1所述的注册方法，其中，生成特征向量的步骤包括：对合成信号执行域变换；和从域变换的结果提取特征向量。 6.根据权利要求5所述的注册方法，其中，合成信号包括时域声音信息，并且域变换的结果包括频域图像信息，其中，生成特征向量的步骤包括：使用卷积神经网络从频域图像信息提取特征向量。 7.根据权利要求1所述的注册方法，其中，合成的步骤包括将噪声信号添加到接收的语音信号，噪声信号包括加性噪声信号。 8.根据权利要求7所述的注册方法，其中，加性噪声信号基于噪声的类型、噪声的时序以及指示噪声与语音信号的能量比的信噪比中的任何一个或任何两个或更多个的任何组合被确定。 9.根据权利要求1所述的注册方法，其中，合成的步骤包括对接收的语音信号和噪声信号执行卷积运算，噪声信号包括信道噪声信号。 10.根据权利要求9所述的注册方法，其中，信道噪声信号基于噪声的类型和指示噪声与语音信号的能量比的信噪比中的至少一个被确定。 11.根据权利要求1所述的注册方法，其中，生成特征向量的步骤包括：将合成信号分割成多个部分；和提取与所述多个部分中的至少一个部分对应的至少一个部分特征向量。 12.根据权利要求1所述的注册方法，还包括：提取包括在语音信号和合成信号中的任何一个或两者中的声音信息的起始点和结束点，其中，起始点和结束点被应用于合成的步骤和生成特征向量的步骤中的任何一个或两者。 13.根据权利要求1所述的注册方法，其中，接收语音信号的步骤包括：通过多个通道接收说话者的语音信号，针对所述多个通道之中的每个通道独立地执行合成的步骤和生成特征向量的步骤，构造注册数据库的步骤包括：基于通过所述多个通道生成的特征向量来构造注册数据库。 14.根据权利要求13所述的注册方法，还包括：在接收语音信号之后，基于接收的语音信号之间的差来估计噪声；和从接收的语音信号中的每个语音信号减去所述噪声。 15.根据权利要求1所述的注册方法，其中，接收语音信号的步骤包括：通过多个通道接收说话者的语音信号，并且其中，所述注册方法还包括：通过预处理接收的语音信号来确定用于合成的语音信号。 16.根据权利要求15所述的注册方法，其中，确定语音信号的步骤包括：基于由于硬件规格引起的识别错误是否包括在接收的语音信号中，从接收的语音信号中选择一个语音信号。 17.根据权利要求15所述的注册方法，其中，确定语音信号的步骤包括：基于由于硬件规格引起的识别错误是否包括在接收的语音信号的每个部分中，针对接收的语音信号的多个部分之中的每个部分从接收的语音信号中选择一个语音信号。 18.根据权利要求1所述的注册方法，还包括：通过将输入语音信号与生成的特征向量进行比较来识别说话者。 19.一种存储指令的非暂时性计算机可读存储介质，所述指令在被处理器执行时，使得所述处理器执行权利要求1所述的注册方法。 20.一种说话者识别方法，包括：接收说话者的语音信号；基于接收的语音信号来生成至少一个输入特征向量；将所述至少一个输入特征向量与存储在注册数据库中的注册用户的至少一个注册特征向量进行比较；和基于比较的结果来识别说话者，其中，基于用于注册注册用户的语音信号与噪声信号的合成信号来生成所述至少一个注册特征向量。 21.根据权利要求20所述的说话者识别方法，其中，注册用户包括多个注册用户，识别说话者的步骤包括从所述多个注册用户之中辨识说话者。 22.根据权利要求20所述的说话者识别方法，其中，生成所述至少一个输入特征向量的步骤包括：对接收的语音信号执行域变换；和从域变换的结果提取输入特征向量。 23.根据权利要求22所述的说话者识别方法，其中，执行域变换的步骤包括：对接收的语音信号执行快速傅里叶变换；和基于快速傅里叶变换的结果对快速傅里叶变换的结果执行填充。 24.根据权利要求20所述的说话者识别方法，其中，生成所述至少一个输入特征向量的步骤包括：对接收的语音信号执行滑动窗口操作，使得输入特征向量的窗口大小等于注册特征向量的窗口大小。 25.根据权利要求20所述的说话者识别方法，其中，所述至少一个输入特征向量的数量基于应用所需的安全级别或响应时间被确定。 26.根据权利要求20所述的说话者识别方法，其中，噪声信号包括加性噪声信号和信道噪声信号中的任何一个或两者。 27.根据权利要求20所述的说话者识别方法，其中，接收语音信号的步骤包括：通过多个通道接收说话者的语音信号，针对所述多个通道中的每个通道独立地执行生成所述至少一个输入特征向量的步骤和比较的步骤，所述至少一个注册特征向量包括：通过所述多个通道生成的注册特征向量。 28.根据权利要求27所述的说话者识别方法，还包括：在接收语音信号之后，基于接收的语音信号之间的差来估计噪声；和从接收的语音信号中的每个语音信号减去所述噪声。 29.根据权利要求20所述的说话者识别方法，其中，接收语音信号的步骤包括：通过多个通道接收说话者的语音信号，并且其中，所述说话者识别方法还包括：通过预处理接收的语音信号来确定用于合成的语音信号。 30.根据权利要求29所述的说话者识别方法，其中，确定语音信号的步骤包括：基于由于硬件规格引起的识别错误是否包括在接收的语音信号中，从接收的语音信号中选择一个语音信号。 31.根据权利要求29所述的说话者识别方法，其中，确定语音信号的步骤包括：基于由于硬件规格引起的识别错误是否包括在接收的语音信号的每个部分中，针对接收的语音信号的多个部分之中的每个部分从接收的语音信号中选择一个语音信号。 32.根据权利要求20所述的说话者识别方法，还包括：在接收语音信号之前，基于合成信号生成所述至少一个注册特征向量，并且将所述至少一个注册特征向量存储在注册数据库中。 33.一种存储指令的非暂时性计算机可读存储介质，所述指令在被处理器执行时，使得所述处理器执行权利要求20所述的说话者识别方法。 34.一种注册设备，包括：声学传感器，被配置为接收说话者的语音信号；和处理器，被配置为对接收的语音信号与噪声信号进行合成以生成合成信号，基于合成信号来生成特征向量，并且基于生成的特征向量来构造与说话者对应的注册数据库。 35.根据权利要求34所述的注册设备，其中，处理器还被配置为：基于接收的语音信号来生成第二特征向量，并基于特征向量和第二特征向量中的任何一个或两者来构造注册数据库。 36.根据权利要求35所述的注册设备，其中，处理器还被配置为：将包括特征向量和第二特征向量中的任何一个或两者的多个特征向量聚类成多个组，并且提取与所述多个组中的至少一组对应的至少一个代表性特征向量。 37.根据权利要求34所述的注册设备，其中，第二特征向量基于没有合成的接收的语音信号。 38.根据权利要求34所述的注册设备，其中，处理器还被配置为：对合成信号执行域变换，并且从域变换的结果提取特征向量。 39.根据权利要求34所述的注册设备，其中，处理器还被配置为：将噪声信号添加到接收的语音信号，其中，噪声信号包括加性噪声信号。 40.根据权利要求34所述的注册设备，其中，处理器还被配置为：对接收的语音信号和噪声信号执行卷积运算，其中，噪声信号包括信道噪声信号。 41.根据权利要求34所述的注册设备，其中，处理器还被配置为：将合成信号分割成多个部分，并提取与所述多个部分中的至少一个部分对应的至少一个部分特征向量。 42.根据权利要求34所述的注册设备，其中，处理器还被配置为：通过将输入语音信号与生成的特征向量进行比较来识别说话者。 43.一种用于说话者识别的设备，包括：声学传感器，被配置为接收说话者的语音信号；和处理器，被配置为基于接收的语音信号来生成至少一个输入特征向量，将所述至少一个输入特征向量与存储在注册数据库中的注册用户的至少一个注册特征向量进行比较，并且基于比较的结果来识别说话者，其中，基于用于注册注册用户的语音信号与噪声信号的合成信号来生成所述至少一个注册特征向量。 44.根据权利要求43所述的设备，其中，处理器还被配置为：对接收的语音信号执行域变换，并且从域变换的结果提取输入特征向量。 45.根据权利要求43所述的设备，其中，处理器还被配置为：对接收的语音信号执行滑动窗口操作，使得输入特征向量的窗口大小等于注册特征向量的窗口大小。 46.根据权利要求43所述的设备，其中，所述处理器还被配置为：对接收的语音信号执行快速傅里叶变换；和基于快速傅里叶变换的结果对快速傅里叶变换的结果执行填充。 47.根据权利要求43所述的设备，其中，所述处理器还被配置为：在接收语音信号之前，基于合成信号生成所述至少一个注册特征向量，并且将所述至少一个注册特征向量存储在注册数据库中。

专利专题