一种动态语音识别交互软件展示系统

引用

摘要：

本发明公开了一种动态语音识别交互软件展示系统，涉及语音识别技术领域，包括音频获取模块、语音识别模块、硬件设备和交互模块。该动态语音识别交互软件展示系统，设置有音频获取模块，实时获取包含语音的音频数据，然后利用搭载于识别设备或识别软件的语音识别模块对音频数据进行语音识别处理，基于动态时间规整算法精准识别出语音内容，以便通过交互模块实现与硬件设备之间的数据传递和交流活动，该系统通过动态语音识别，与其他展示形式的硬件设备进行交互，在识别到对应指令的时候，控制对应的展示内容出现在硬件设备上，简化了展示流程，同时通过硬件设备对语音识别模块的交互反馈，保障了展示过程的稳定性。

专利类型：发明专利

申请/专利号：CN202311679031.X

申请日期：2023-12-08

公开/公告号：CN117636846A

公开/公告日：2024-03-01

主分类号：G10L15/02(2006.01)

申请/专利权人:苏州星和壹数字科技有限公司

发明/设计人:陈飞

主申请人地址:215000 江苏省苏州市工业园区津梁街172号华享办公L5002-548室

专利代理机构:苏州言思嘉信专利代理事务所(普通合伙)

代理人:叶晓龙

国别省市代码:江苏;32

权利要求：

1.一种动态语音识别交互软件展示系统，其特征在于，包括：音频获取模块，所述音频获取模块用于实时获取包含语音的音频数据，具体通过麦克风或者其他音频设备来实现；语音识别模块：所述语音识别模块搭载于识别设备或识别软件，基于动态时间规整算法实现语音识别，得出语音中所包含的文字、信息和指令；硬件设备：所述硬件设备是展示系统中不可或缺的重要组成部分，为系统提供物理的硬件支持，并将软件程序封装在物理部件上，可通过接收指定，控制硬件操作来实现展示功能；交互模块：所述交互模块用于实现语音识别模块与硬件设备之间的数据传递和交流活动。 2.根据权利要求1所述的一种动态语音识别交互软件展示系统，其特征在于，所述语音识别模块具体包括：信号处理单元：通过VAD技术检测当前音频信号中是否包含语音信号存在，对输入信号进行判断，将语音信号与各种背景噪声信号区分出来，采用不同的处理方法分别对两种信号进行处理；特征提取单元：除去语音信号中对于语音识别无用的信息，保留能够反映语音本质特征的关键信息，对其进行处理，再用特定的形式表示出来，以便后续的进一步处理；语音建模单元：使用提取到的特征数据建立语音模型，所述语音模型包括但不限于基于概率的隐马尔可夫模型或者深度学习模型，且深度学习模型包括但不限于循环神经网络、卷积神经网络；语音识别单元：将待识别的语音特征序列输入到语音模型中，通过对比模型中的候选词和输入的语音特征，进行匹配识别，得出识别结果；解码处理单元：在得到识别结果后，对识别结果进行修正，并对修正后的识别结果进行解码，获得指令。 3.根据权利要求2所述的一种动态语音识别交互软件展示系统，其特征在于，所述信号处理单元的信号处理包括：语音信号处理：利用动态时间规整算法将语音信号进行伸长或缩短直到与标准模式的长度一致；噪声信号处理：利用降噪算法去除背景噪声信号，且降噪算法至少包括自适应滤波器、谱减法、维纳滤波法的其中一种。 4.根据权利要求3所述的一种动态语音识别交互软件展示系统，其特征在于，所述动态时间规整算法的原理是一次正确的发音应该包含构成该发音的全部音素以及正确的音素连接次序，其中各音素持续时间的长短与音素本身以及音频的状况有关，通过动态时间规整算法对语音信号进行拉伸或收缩，实现语音信号的非线性地扭曲，使其与标准模式的长度一致。 5.根据权利要求4所述的一种动态语音识别交互软件展示系统，其特征在于，所述动态时间规整算法使用数学表达如下： D(i,j)＝Dist(i,j)+min[D(i-1,j),D(i,j-1),D(i-1,j-1)] 其中，i＝1、2、…、x_len+1；j＝1、2、…、y_len+1。 6.根据权利要求2所述的一种动态语音识别交互软件展示系统，其特征在于，所述解码处理单元的修正操作包括但不限于对重复单词进行去除、语言模型的后处理。 7.根据权利要求1所述的一种动态语音识别交互软件展示系统，其特征在于，所述交互模块具体包括：第一交互单元：实现数据从语音识别模块到硬件设备的单向传递；第二交互单元：实现数据从硬件设备到语音识别模块的单向传递；数据传输单元：按照一定的规程，通过无线或有线传输手段将数据从数据源传输到数据终端，以支撑第一交互单元和第二交互单元的数据传输和交换工作。 8.根据权利要求7所述的一种动态语音识别交互软件展示系统，其特征在于，所述第一交互单元具体包括：指令识别子单元：基于语音识别结果识别语音信息所包含的指令内容，调取对应的展示内容；设备选择子单元：结合展示形式需求，为展示内容选择合适的硬件设备；展示控制子单元：控制展示内容出现在硬件设备上，利用硬件设备呈现展示内容。 9.根据权利要求7所述的一种动态语音识别交互软件展示系统，其特征在于，所述第二交互单元具体包括：信号监测子单元：用于监测硬件设备的信号接收情况；设备监测子单元：用于监测硬件设备运行情况以及各项功能的使用情况；信息反馈子单元：将监测所得的硬件设备相关信息反馈给语音识别模块。 10.根据权利要求1-9任一项所述的一种动态语音识别交互软件展示系统，其特征在于，所述动态语音识别交互软件展示系统的使用流程如下：步骤一、音频获取模块通过麦克风或者其他音频设备实时获取包含语音的音频数据，并发送给语音识别模块；步骤二、语音识别模块的信号处理单元接收音频数据后，通过VAD技术检测语音信号存在，并将语音信号与各种背景噪声信号进行区分，利用动态时间规整算法将语音信号进行处理，再通过特征提取单元将反映语音本质特征的关键信息用特定的形式表示出来，然后语音建模单元基于特征数据建立语音模型，并利用语音识别单元匹配识别语音特征，得出识别结果，经解码处理单元对识别结果进行修正、解码后，获得指令；步骤三、交互模块的第一交互单元触发，指令识别子单元基于语音识别结果识别语音信息所包含的指令内容，调取对应的展示内容，然后设备选择子单元将结合展示形式需求，为展示内容选择合适的硬件设备，再由展示控制子单元控制展示内容出现在硬件设备上，利用硬件设备呈现展示内容；步骤四、交互模块的第二交互单元触发，通过信号监测子单元监测硬件设备的信号接收是否稳定，并通过设备监测子单元监测硬件设备运行是否正常，以及各项功能的使用是否正常，再经由信息反馈子单元将监测所得的硬件设备相关信息反馈给语音识别模块。

专利专题