一种语音识别系统

引用

摘要：

本发明公开了一种语音识别系统，包括：多个音频获取模块同时获取环境中多个音频信息；获取环境中的多个视频信息；接收所述多个音频信息，根据所述多个音频信息中的声纹特征分离出个体声音，将所述个体声音分组并记录时间信息，将各分组中的个体声音进行融合得到个体增强音频信息；根据各分组中的个体声音中的时间信息结合音频获取模块的位置计算个体位置以辅助视频对个体定位；根据个体位置信息、声音强度分布、视频信息以及语义实现讨论分组，所述讨论分组中的语音采用所述个体增强音频信息；可以显示以及播放各个讨论分组语音。能够满足课堂多点监测和评估要求。

专利类型：发明专利

申请/专利号：CN202110124943.5

申请日期：2021-01-29

公开/公告号：CN112885359A

公开/公告日：2021-06-01

主分类号：G10L17/04(2013.01)

申请/专利权人:焦作大学

发明/设计人:张喜云;李振新;闫晶;赵雷;韩娟娟;霍霄艳;李世伟;王康

主申请人地址:454000 河南省焦作市山阳区人民路东段3066号

专利代理机构:成都其高专利代理事务所(特殊普通合伙)

代理人:廖曾

国别省市代码:河南;41

权利要求：

1.一种语音识别系统，其特征在于，该系统包括：多个音频获取模块，多个音频获取模块同时获取环境中多个音频信息；多个视频获取模块，获取环境中的多个视频信息；音频处理模块，接收所述多个音频信息，根据所述多个音频信息中的声纹特征分离出个体声音，将所述个体声音分组并记录时间信息，将各分组中的个体声音进行融合得到个体增强音频信息；定位模块，根据各分组中的个体声音中的时间信息结合音频获取模块的位置计算个体位置以辅助视频对个体定位；分组模块，根据个体位置信息、声音强度分布、视频信息以及语义实现讨论分组，所述讨论分组中的语音采用所述个体增强音频信息；教学交互模块，用于显示以及播放各个讨论分组语音。 2.根据权利要求1所述的系统，其特征在于，所述音频获取模块设置在不同位置。 3.根据权利要求1和2所述的系统，其特征在于，所述音频处理模块包括：分布式音频接收模块、分布式声纹识别模块以及声音融合模块，所述分布式音频接收模块能够并行接收多个音频获取模块中的音频信息，所述声纹识别模块能够识别音频信息并分离出个体声音；多个所述声纹识别模块分别识别多个音频获取模块中的音频信息；所述声音融合模块将相同个体的个体声音融合。 4.根据权利要求1所述的系统，其特征在于，所述分组模块还包括语义识别模块，所述语义识别模块包括语义理解模块和实时更新的扩展语义数据库，所述语义理解模块结合历史录取的个体语音中的语义信息进行训练，对照扩展语义数据库得出个体语义。 5.根据权利要求1所述的系统，其特征在于，所述分组模块还包括声音强度分布计算模块，根据不同分组中的个体声音计算得到声音强度分布。 6.根据权利要求4所述的系统，其特征在于，同时，语义识别模块还用于综合多个个体语音，以识别出两个及两个以上的对话对象；综合多个个体语音的优先级由个体位置信息、声音强度、视频信息确定，根据音频和视频中的时间标签信号确定个体是否面对以及声音强度是否足够能够被对话对象获取，再根据语音识别模块中多个个体语音进行语义分析以识别出两个及两个以上的对话对象。

专利专题