AI语音识别、推理、生成系统及方法

引用

摘要：

本申请提供了AI语音识别、推理、生成系统及方法，语音输入模块，用于接收用户的语音输入，自适应噪声抑制模块，通过噪音抑制算法和噪声过滤模型过滤当前环境的背景噪音，语音识别模块，通过深度学习算法对语音进行识别，优化对快速语速的识别准确性。本申请通过深度学习算法和多尺度特征提取方法，系统能够更准确地识别出快速语速下的单词和音节，从而有效解决语速过快导致的识别不准确问题，通过提取短时、中时和长时特征，系统能够全面捕捉语音信号的局部和全局信息，为准确的语音识别提供丰富的特征基础。

专利类型：发明专利

申请/专利号：CN202410638382.4

申请日期：2024-05-20

公开/公告号：CN118447842A

公开/公告日：2024-08-05

主分类号：G10L15/22(2006.01)

申请/专利权人:深圳镜天网络科技有限公司

发明/设计人:谢伟明

主申请人地址:518000 广东省深圳市南山区西丽街道曙光社区茶光路东文光工业区17号208-1

专利代理机构:深圳市诺正鑫泽知识产权代理有限公司

代理人:宋朋飞

国别省市代码:广东;44

权利要求：

1.AI语音识别、推理、生成系统，其特征在于，包括：语音输入模块，用于接收用户的语音输入；自适应噪声抑制模块，通过噪音抑制算法和噪声过滤模型过滤当前环境的背景噪音；语音识别模块，通过深度学习算法对语音进行识别，优化对快速语速的识别准确性；推理模块，用于根据识别的语音内容进行逻辑推理；生成模块，根据推理结果生成相应的输出；所述语音识别模块通过深度学习算法对语音进行识别，具体包括以下步骤： S1、数据预处理：对输入的语音信号进行预处理，包括降噪、标准化和分割，用于确保信号质量； S2、多尺度特征提取：对语音进行特征提取，提取对应尺度的特征，包括短时特征、中时特征和长时特征，全面捕捉语音信号的局部和全局信息； S3、特征融合：将S2中提取对多尺度特征进行融合，融合方式采用串联融合策略，以形成一个综合的特征向量，该向量富含多尺度的语音信息； S4、模型训练：利用融合后的特征向量训练一个深度学习模型； S5、识别输出：将待识别的语音信号通过上述训练好的模型进行识别，并输出识别结果。 2.根据权利要求1所述的AI语音识别、推理、生成系统，其特征在于，所述S2中，特征的提取步骤具体包括： S200、预处理：预加重：通过高通滤波器来提升信号在高频部分的信噪比，预加重方法是一阶高通滤波器，其公式为y[n]＝x[n]-αx[n-1]，其中α为滤波系数，取值在0.9到1.0之间，y[n]为当前输出信号的值，它是一个时间序列数据中的一个点，n表示当前的样本点，x[n]为当前输入信号的值，x[n-1]为前一个样本点的输入信号值，n-1为当前时间点的前一个时间点；分帧：将语音信号分成短时的平稳帧，分帧操作采用汉明窗与原始信号相乘来实现，汉明窗其中，w(n)窗口函数在第n个采样点的权重值，n是样本，N是窗口长度，汉明窗应用到原始语音信号上，与原始信号对应段的每个样本相乘，从而得到一帧加窗后的信号，汉明窗在信号上的滑动，将整段语音信号分割成多个重叠的帧； S201、提取：对每一帧信号进行FFT，将时域信号转换为频域信号； S202、动态特征计算：为了捕获语音信号中的动态信息，计算一阶和二阶差分动态特征。 3.根据权利要求2所述的AI语音识别、推理、生成系统，其特征在于，所述S201中，具体的转换步骤包括：输入数据准备：从预处理和分帧后的语音信号中提取的信号样本输入至FFT中；应用库利-图基算法得到频域信号：应用公式将时域信号x[n]转化为频域信号X[k]，X[k]表示在第k个频率分量上的复数值，k是频域的索引取值范围是0到N-1，其中，为求和符号，表示对所有的N进行求和，为复数指数函数，j是虚数单位，满足j2＝-1，为相位差，决定了每个频率分量的旋转速度和方向。 4.根据权利要求3所述的AI语音识别、推理、生成系统，其特征在于，所述S202中，具体的计算步骤包括： S2020、一阶差分计算：设定一个空的一阶差分序列Δx[n]；计算一阶差分：对于时域信号中的每一个样本点x[n]，其一阶差分Δx[n]定义为当前样本点x[n]与前一个样本点x[n-1]的差，即Δx[n]＝x[n]-x[n-1]；形成一阶差分序列：重复上述计算过程，直到处理完时域信号中的所有样本点，从而得到完整的一阶差分序列Δx[n]； S2021、二阶差分计算：设定一个空的二阶差分序列Δ2x[n]；计算二阶差分：二阶差分Δ2x[n]是一阶差分的差分，计算公式为：Δ2x[n]＝Δx[n]-Δx[n-1]，为当前样本点的一阶差分Δx[n]与前一个样本点的一阶差分Δx[n-1]之差；形成二阶差分序列：重复上述计算过程，直到处理完一阶差分序列中的所有样本点，从而得到完整的二阶差分序列Δ2x[n]。 5.根据权利要求4所述的AI语音识别、推理、生成系统，其特征在于，所述S2中，特征的提取步骤还包括： S203、提取短时、中时和长时特征：短时特征提取：计算每一帧信号的能量，短时能量是该帧内所有样本值的平方和具体公式为其中，E是短时能量，x[n]是帧内的样本，和n是帧的长度，统计每一帧信号中正负号变化的次数，记为短时过零率；中时特征提取：从FFT转换后得到的频谱中提取幅度和功率谱作为特征，将FFT得到的频谱通过Mel滤波器组，将频率映射到Mel刻度上，对每个滤波器的输出取对数，然后进行离散余弦变换得到MFCC；长时特征提取：使用自相关函数(ACF)方法计算每一帧的基频，具体公式为其中，m是延迟，将信号x[n]与其延迟m个单位的版本x[n-m]相乘，对所有n从m到n-1的乘积进行求和，得到自相关函数r[m]，对于周期性信号，ACF会在与信号周期相对应的延迟处出现峰值，根据出现的峰值计算周期，具体公式为：T为周期Fs为采样率，基频F0是周期的倒数，通过公式：计算得出；将每帧的基频连接起来形成音高轮廓。 6.根据权利要求5所述的AI语音识别、推理、生成系统，其特征在于，所述S3中，具体融合步骤包括：特征串联：将短时特征、中时特征、长时特征以及一阶和二阶差分特征串联起来，形成一个长特征向量。 7.根据权利要求6所述的AI语音识别、推理、生成系统，其特征在于，所述S4中，使用长特征向量来训练深度学习模型，具体包括以下步骤：数据准备：将融合后的特征向量进行匹配，形成训练数据集；模型选择：选择深度神经网络；训练过程：使用训练数据集对模型进行训练，通过反向传播算法和梯度下降优化器来更新模型的参数。 8.AI语音识别、推理、生成方法，使用如权利要求7所述的AI语音识别、推理、生成系统，其特征在于，包括以下步骤：步骤一、语音输入与预处理：用户通过语音输入模块输入语音，自适应噪声抑制模块实时过滤背景噪音，增强语音信号，对输入的语音信号进行预处理，包括降噪、标准化和分割；步骤二、多尺度特征提取：对预处理后的语音信号进行特征提取；提取短时特征，包括短时能量和短时过零率，用于捕捉语音信号的瞬时特性；提取中时特征，包括MFCC，以反映语音的频谱特性；提取长时特征，包括基频和音高轮廓，以捕捉语音的语调和节奏信息；计算一阶和二阶差分动态特征，捕获语音信号随时间的动态变化；步骤三、特征融合：将提取的短时特征、中时特征、长时特征以及一阶和二阶差分特征进行串联融合，形成一个综合的特征向量，该向量富含多尺度的语音信息。 9.根据权利要求8所述的AI语音识别、推理、生成方法，其特征在于，还包括以下步骤：步骤四、模型训练与识别：利用融合后的特征向量训练深度神经网络，通过反向传播算法和梯度下降优化器来更新模型的参数，以最小化预测误差，将待识别的语音信号输入训练好的模型进行识别，并输出识别结果。 10.根据权利要求9所述的AI语音识别、推理、生成方法，其特征在于，还包括以下步骤：步骤五、推理与生成：推理模块根据识别的语音内容进行逻辑推理，生成模块根据推理结果生成相应的输出。

专利专题