后创建声纹的会议语音转写方法、装置及存储介质

引用

摘要：

本发明提供后创建声纹的会议语音转写方法、装置及存储介质，通过会议结束后从录音文件中创建声纹，并对录音文件再次转写，让未能提前创建参会方声纹模型的会议，也能获得对话式的增强型会议记录。通过在会议结束后从录音文件创建声纹并再次转写，实现了对转写记录的增强。本发明通过采用专用工具，从会议的录音文件和转写记录，来创建声纹，进而后期花费少量的人工来补充声纹，省去了人工再完整听一遍录音去补充所花费的大量时间。解决了会议开启前声纹缺失这种情况下，会议语音转写系统这种人工智能，使用不便捷、不智能的问题。

专利类型：发明专利

申请/专利号：CN202011069637.8

申请日期：2020-10-09

公开/公告号：CN111933144A

公开/公告日：2020-11-13

主分类号：G10L15/26(2006.01)

申请/专利权人:融智通科技(北京)股份有限公司

发明/设计人:皮慧斌;边翀;栗红霞;梁祎;管明尧;韩哲吉

主申请人地址:100085 北京市海淀区上地七街一号院汇众大厦2号楼8层

专利代理机构:北京众元弘策知识产权代理事务所(普通合伙)

代理人:李超

国别省市代码:北京;11

权利要求：

1.一种后创建声纹的会议语音转写方法，其特征在于包括：步骤1、对会议语音文件进行转写，生成会议记录文本文件；步骤2、通过操作开始播放/停止播放按钮，从会议语音文件中选取语音片段及该语音片段开始时间至结束时间对应的文本片段；步骤3、对所选取的语音片段及其对应的文本片段进行标记；步骤4、确认语音片段对应的发言人身份信息，将该语音片段作为所述发言人的声音数据进行声纹特征提取，创建所述发言人的声纹；步骤5、判断是否存在未创建声纹的发言人，如果存在则返回步骤2，否则执行步骤6；步骤6、在已创建声纹的情况下，重新对会议语音文件进行转写，检查是否存在不能识别的发言人；如果不存在不能识别的发言人，则完成会议语音转写；如果存在不能识别的发言人，则标记为未知发言人。 2.根据权利要求1所述的会议语音转写方法，其特征在于：在步骤6中，还包括针对未知发言人进行如下处理：获取未知发言人的语音片段，接收经用户核实确认的发言人身份，如果发言人的声纹已创建，使用该“未知发言人的语音片段”对该发言人的声纹进行修正；如果发言人的声纹尚未创建，则返回步骤2的方法创建该发言人的声纹。 3.根据权利要求1所述的会议语音转写方法，其特征在于：创建声纹的方法包括：对语音进行预处理和特征提取，然后通过声纹模型训练得到该发言人的声纹模型；所述预处理方法包括静音检测、去噪、解混响；提取到的特征包括MFCC，使用的声纹模型算法是GMM-UBM联合模型，即高斯混合模型-通用背景模型联合模型； MFCC即梅尔频率倒谱系数，计算方法是：对输入的语音进行预加重和分帧，然后施加汉明加窗处理后进行快速傅里叶变换，对得到的特征进行幅度压制，得到能量谱；通过三角窗函数将能量谱映射到梅尔刻度，从而完成梅尔滤波，再取对数后经过离散余弦变换得到转换后的频谱即MFCC。 4.根据权利要求1所述的会议语音转写方法，其特征在于：步骤6中如果存在不能识别的发言人，则进行识别失败原因判断，原因包括噪声和/或多人同时发言；当识别到两人及两人以上同时发言时，判定为多人同时发言，记录下多人发言的起止时间，对相应起止时间段内，增加多人发言标记，并将该起止时间段内的语音片段标记为混合语音片段。 5.根据权利要求4所述的会议语音转写方法，其特征在于：对多人同时发言的混合语音片段进行语音分离处理，包括：对混合语音片段进行噪音分离处理后进行特征提取；将已获取的每个声纹特征分别与混合语音特征进行相似度计算；将相似度最高的声纹特征的所有者作为该段混合语音片段的主要发言人；将主要发言人与该段混合语音片段转换成的文字记录进行匹配。 6.根据权利要求1所述的会议语音转写方法，其特征在于：在语音转写的过程中，将各语音片段转成文字，同时识别该语音片段的发言人，即声纹识别过程。 7.根据权利要求6所述的会议语音转写方法，其特征在于：声纹识别过程包括：按创建声纹过程中的方法对语音片段进行特征提取，然后将该声纹特征通过声纹数据库中的已有发言人的声纹模型进行打分判决，选取匹配度最高并且可信、即大于最低置信度的声纹模型，以此声纹模型的所有者，作为发言人，如未能匹配上，则标记为未知发言人。 8.根据权利要求1所述的会议语音转写方法，其特征在于：还包括声纹模型测试的步骤，用于验证已采集声纹模型的有效性，包括：用户选定已知发言人的至少一个语音片段；识别该语音片段的发言人，如果识别出的发言人与已知发言人一致则通过测试，否则重新创建该已知发言人的声纹。 9.一种后创建声纹的会议语音转写装置，其特征在于：包括存储器和处理器；所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-8任一项所述的会议语音转写方法。 10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中包括实现后创建声纹的会议语音转写的计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一项所述的会议语音转写方法。

专利专题