一种应用于人工智能的汉语语音识别系统

引用

摘要：

本发明涉及语音识别技术领域，提供一种应用于人工智能的汉语语音识别系统，所述语音识别系统对语音信号处理包括以下操作步骤：步骤1：预滤波处理；步骤2：特征提取：将预滤波处理后的wav格式语音信号通过梅尔倒频谱算法转换为神经网络需要的二维频谱图像信号；步骤3：获得学模型；步骤4：解码：对声学模型的输出中连续相同的符号进行合并，并去除静音分隔标记符，获得语音拼音符号序列；步骤5：使用统计语言模型，将拼音转换为最终的识别文本并输出本发明旨在提供一种运算速度快、识别准确的汉语智能语音识别系统。

专利类型：发明专利

申请/专利号：CN201910078666.1

申请日期：2019-01-28

公开/公告号：CN111489745A

公开/公告日：2020-08-04

主分类号：G10L15/16(2006.01)

申请/专利权人:上海菲碧文化传媒有限公司

发明/设计人:裘俊

主申请人地址:201407 上海市奉贤区青村镇钱桥路756号2089室

专利代理机构:上海宏京知识产权代理事务所(普通合伙)

代理人:周高

国别省市代码:上海;31

权利要求：

1.一种应用于人工智能的汉语语音识别系统，其特征在于，所述语音识别系统对语音信号处理包括以下操作步骤：步骤1：预滤波处理：用于抑制电源工频干扰和防止混叠干扰；步骤2：特征提取：将预滤波处理后的wav格式语音信号通过梅尔倒频谱算法转换为神经网络需要的二维频谱图像信号；步骤3：声学模型：基于TensorFlow框架搭建，采用基于CNN的深层的卷积神经网络作为网络模型，并通过语音数据进行训练获得，输入是特征向量，输出为音素信息；步骤4：解码：对声学模型的输出中连续相同的符号进行合并，并去除静音分隔标记符，获得语音拼音符号序列；步骤5：使用统计语言模型，将拼音转换为最终的识别文本并输出。 2.根据权利要求1所述的一种应用于人工智能的汉语语音识别系统，其特征在于，所述语音识别系统的客户端分为UWP客户端和WPF客户端，源码均需要使用VS2017来开发和编译，使用C#和XAML编写。 3.根据权利要求2所述的一种应用于人工智能的汉语语音识别系统，其特征在于，所述客户端引入arm指令集，做多指令集优化，加速运算，对于耗时的运算采用多线程并发处理。 4.根据权利要求2所述的一种应用于人工智能的汉语语音识别系统，其特征在于，所述客户端可选取人声频段，并剔除非人声频段减少冗余计算；同时具备静音检测功能，减少不必要的时间片段。 5.根据权利要求1所述的一种应用于人工智能的汉语语音识别系统，其特征在于，步骤2中所述的梅尔倒频谱算法包括如下操作步骤：输入声音文件，解析成原始的声音数据(时域信号)；通过短时傅里叶变换，加窗分帧将时域信号转换为频域信号；通过梅尔频谱变换，将频率转换成人耳能感知的线性关系；采用DCT变换将直流信号分量和正弦信号分量分离；提取声音频谱特征向量，并将向量转换为图像。 6.根据权利要求1所述的一种应用于人工智能的汉语语音识别系统，其特征在于，所述语音识别系统设有增大型训练语料库，所述训练语料库可自主选取不同的语料库适应不同的说话场景。

专利专题