一种识别说话对象的方法、装置、设备及可读存储介质

引用

摘要：

本发明公开了一种识别说话对象的方法、装置、设备及可读存储介质，该方法包括：确定目标音频文件中说话对象的相似度值；根据所述确定的相似度值和预设动态规划模型，确定所述目标音频文件的任一帧文件对应的说话对象对应的决策值；其中，所述预设动态规划模型用于根据所述任一帧文件的前后帧文件对应的说话对象确定所述任一帧文件对应的说话对象的决策值；将决策值中最大值对应的说话对象确定为所述任一帧文件的说话对象，以识别所述目标音频文件中所有帧文件对应的说话对象。

专利类型：发明专利

申请/专利号：CN202010693717.4

申请日期：2020-07-17

公开/公告号：CN111883138A

公开/公告日：2020-11-03

主分类号：G10L17/00(2013.01)

申请/专利权人:深圳前海微众银行股份有限公司

发明/设计人:谭聪慧

主申请人地址:518027 广东省深圳市前海深港合作区前湾一路1号A栋201室

专利代理机构:北京同达信恒知识产权代理有限公司

代理人:彭燕

国别省市代码:广东;44

权利要求：

1.一种识别说话对象的方法，其特征在于，所述方法包括：确定目标音频文件中说话对象的相似度值；根据所述确定的相似度值和预设动态规划模型，确定所述目标音频文件的任一帧文件对应的说话对象对应的决策值；其中，所述预设动态规划模型用于根据所述任一帧文件的前后帧文件对应的说话对象确定所述任一帧文件对应的说话对象的决策值；将决策值中最大值对应的说话对象确定为所述任一帧文件的说话对象，以识别所述目标音频文件中所有帧文件对应的说话对象。 2.如权利要求1所述的方法，其特征在于，所述根据所述确定的相似度值和预设动态规划模型，确定所述目标音频文件的任一帧文件对应的说话对象对应的决策值，包括：根据预设状态转移条件对所述任一帧文件对应的M个说话对象的相似度进行处理，确定所述任一帧文件对应的M个说话对象的关联值；其中，所述预设状态转移条件用于根据所述任一帧文件的前一个帧文件的关联值递推所述任一帧文件的关联值，其中，M为大于1的正整数；根据所述关联值和所述预设动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值。 3.如权利要求2所述的方法，其特征在于，所述根据所述关联值和所述预设动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值，包括：确定所述任一帧文件是否为所述多个帧文件中最后一个帧文件，所述多个帧文件按照划分顺序排列；若所述任一帧文件为所述最后一个帧文件，则从所述预设动态规划模型中确定第一预设动态规划子模型，并根据所述任一帧文件对应的所述M个说话对象的关联值和所述第一预设子动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值；以及，确定所述任一帧文件不为所述最后一个帧文件，则从所述预设动态规划模型中确定第二预设动态规划子模型，并根据所述任一文件对应的所述M个说话对象的关联值和第二预设子动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值。 4.如权利要求3所述的方法，其特征在于，所述根据所述任一帧文件对应的所述M个说话对象的关联值和所述第一预设子动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值，包括：将所述最后一个帧文件对应的所述M个说话对象的关联值，输入所述第一预设子动态规划模型，获得所述最后一个帧文件对应的M个说话对象对应的决策值；其中，所述第一预设子动态规划模型用于将所述M个说话对象的关联值作为所述最后一个帧文件对应的M个说话对象对应的决策值输出。 5.如权利要求3所述的方法，其特征在于，所述根据所述任一帧文件对应的所述M个说话对象的关联值和第二预设子动态规划模型，确定所述任一帧文件对应的M个说话对象对应的决策值，包括：将所述任一帧文件对应的任一说话对象的关联值、所述任一帧文件的后一个帧文件的说话对象的相似度以及所述后一个帧文件的说话对象与所述任一说话对象是否相同对应的指标值和预设权重值，输入所述第二预设子动态规划模型，获得所述任一帧文件对应的任一说话对象对应的决策值，以确定所述任一帧文件对应的M个说话对象对应的决策值；其中，所述第二预设子动态规划模型用于对所述任一说话对象的关联值和所述后一个帧文件的说话对象的相似度进行相加处理，获得第一处理值；以根据所述指标值和所述预设权重值确定第二处理值，并根据所述第一处理值和所述第二处理值，确定决策值。 6.如权利要求1所述的方法，其特征在于，所述确定目标音频文件的说话对象的相似度值之前，所述方法还包括：确定音频文件的属性信息，其中，所述属性信息用于表征所述音频文件是否录制完成；若根据所述属性信息确定所述音频文件为录制完成文件，则基于所述预设帧长度对所述音频文件进行划分处理，以确定目标音频文件；以及，若确定所述音频文件为正在录制文件，则对所述正在录制文件已录制完成的第一文件基于所述预设帧长度进行划分处理，以确定第一音频文件；将所述第一音频文件作为目标音频文件，以确定所述目标音频文件。 7.如权利要求6所述的方法，其特征在于，所述方法还包括：若已识别所述第一音频文件中每个帧文件对应的说话对象，则对所述正在录制文件已录制完成的第二文件，基于所述预设帧长度进行划分处理，以确定第二音频文件；将所述第二音频文件作为目标音频文件，以确定所述目标音频文件；其中，所述第二文件用于表征所述正在录制文件已录制完成且未识别说话对象的音频文件。 8.一种识别说话对象的装置，其特征在于，包括：第一确定单元，用于确定目标音频文件中说话对象的相似度值；第二确定单元，用于根据确定的相似度值和预设动态规划模型，确定所述目标音频文件的任一帧文件对应的说话对象对应的决策值；其中，所述预设动态规划模型用于根据所述任一帧文件的前后帧文件对应的说话对象确定所述任一帧文件对应的说话对象的决策值；识别单元，用于将决策值中最大值对应的说话对象确定为所述任一帧文件的说话对象，以识别所述目标音频文件中所有帧文件对应的说话对象。 9.一种识别说话对象的设备，其特征在于，所述识别说话对象的设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的识别说话对象的程序，所述识别说话对象的程序被所述处理器执行时实现如权利要求1至7中任一项所述的识别说话对象的方法的步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的识别说话对象的方法的步骤。

专利专题