AI语音识别、推理、生成系统及方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

AI语音识别、推理、生成系统及方法

引用
本申请提供了AI语音识别、推理、生成系统及方法,语音输入模块,用于接收用户的语音输入,自适应噪声抑制模块,通过噪音抑制算法和噪声过滤模型过滤当前环境的背景噪音,语音识别模块,通过深度学习算法对语音进行识别,优化对快速语速的识别准确性。本申请通过深度学习算法和多尺度特征提取方法,系统能够更准确地识别出快速语速下的单词和音节,从而有效解决语速过快导致的识别不准确问题,通过提取短时、中时和长时特征,系统能够全面捕捉语音信号的局部和全局信息,为准确的语音识别提供丰富的特征基础。

发明专利

CN202410638382.4

2024-05-20

CN118447842A

2024-08-05

G10L15/22(2006.01)

深圳镜天网络科技有限公司

谢伟明

518000 广东省深圳市南山区西丽街道曙光社区茶光路东文光工业区17号208-1

深圳市诺正鑫泽知识产权代理有限公司

宋朋飞

广东;44

1.AI语音识别、推理、生成系统,其特征在于,包括: 语音输入模块,用于接收用户的语音输入; 自适应噪声抑制模块,通过噪音抑制算法和噪声过滤模型过滤当前环境的背景噪音; 语音识别模块,通过深度学习算法对语音进行识别,优化对快速语速的识别准确性; 推理模块,用于根据识别的语音内容进行逻辑推理; 生成模块,根据推理结果生成相应的输出; 所述语音识别模块通过深度学习算法对语音进行识别,具体包括以下步骤: S1、数据预处理:对输入的语音信号进行预处理,包括降噪、标准化和分割,用于确保信号质量; S2、多尺度特征提取:对语音进行特征提取,提取对应尺度的特征,包括短时特征、中时特征和长时特征,全面捕捉语音信号的局部和全局信息; S3、特征融合:将S2中提取对多尺度特征进行融合,融合方式采用串联融合策略,以形成一个综合的特征向量,该向量富含多尺度的语音信息; S4、模型训练:利用融合后的特征向量训练一个深度学习模型; S5、识别输出:将待识别的语音信号通过上述训练好的模型进行识别,并输出识别结果。 2.根据权利要求1所述的AI语音识别、推理、生成系统,其特征在于,所述S2中,特征的提取步骤具体包括: S200、预处理: 预加重:通过高通滤波器来提升信号在高频部分的信噪比,预加重方法是一阶高通滤波器,其公式为y[n]=x[n]-αx[n-1],其中α为滤波系数,取值在0.9到1.0之间,y[n]为当前输出信号的值,它是一个时间序列数据中的一个点,n表示当前的样本点,x[n]为当前输入信号的值,x[n-1]为前一个样本点的输入信号值,n-1为当前时间点的前一个时间点; 分帧:将语音信号分成短时的平稳帧,分帧操作采用汉明窗与原始信号相乘来实现,汉明窗其中,w(n)窗口函数在第n个采样点的权重值,n是样本,N是窗口长度,汉明窗应用到原始语音信号上,与原始信号对应段的每个样本相乘,从而得到一帧加窗后的信号,汉明窗在信号上的滑动,将整段语音信号分割成多个重叠的帧; S201、提取:对每一帧信号进行FFT,将时域信号转换为频域信号; S202、动态特征计算:为了捕获语音信号中的动态信息,计算一阶和二阶差分动态特征。 3.根据权利要求2所述的AI语音识别、推理、生成系统,其特征在于,所述S201中,具体的转换步骤包括: 输入数据准备:从预处理和分帧后的语音信号中提取的信号样本输入至FFT中; 应用库利-图基算法得到频域信号:应用公式将时域信号x[n]转化为频域信号X[k],X[k]表示在第k个频率分量上的复数值,k是频域的索引取值范围是0到N-1,其中,为求和符号,表示对所有的N进行求和,为复数指数函数,j是虚数单位,满足j2=-1,为相位差,决定了每个频率分量的旋转速度和方向。 4.根据权利要求3所述的AI语音识别、推理、生成系统,其特征在于,所述S202中,具体的计算步骤包括: S2020、一阶差分计算: 设定一个空的一阶差分序列Δx[n]; 计算一阶差分:对于时域信号中的每一个样本点x[n],其一阶差分Δx[n]定义为当前样本点x[n]与前一个样本点x[n-1]的差,即Δx[n]=x[n]-x[n-1]; 形成一阶差分序列:重复上述计算过程,直到处理完时域信号中的所有样本点,从而得到完整的一阶差分序列Δx[n]; S2021、二阶差分计算: 设定一个空的二阶差分序列Δ2x[n]; 计算二阶差分:二阶差分Δ2x[n]是一阶差分的差分,计算公式为:Δ2x[n]=Δx[n]-Δx[n-1],为当前样本点的一阶差分Δx[n]与前一个样本点的一阶差分Δx[n-1]之差; 形成二阶差分序列:重复上述计算过程,直到处理完一阶差分序列中的所有样本点,从而得到完整的二阶差分序列Δ2x[n]。 5.根据权利要求4所述的AI语音识别、推理、生成系统,其特征在于,所述S2中,特征的提取步骤还包括: S203、提取短时、中时和长时特征: 短时特征提取:计算每一帧信号的能量,短时能量是该帧内所有样本值的平方和具体公式为其中,E是短时能量,x[n]是帧内的样本,和n是帧的长度,统计每一帧信号中正负号变化的次数,记为短时过零率; 中时特征提取:从FFT转换后得到的频谱中提取幅度和功率谱作为特征,将FFT得到的频谱通过Mel滤波器组,将频率映射到Mel刻度上,对每个滤波器的输出取对数,然后进行离散余弦变换得到MFCC; 长时特征提取:使用自相关函数(ACF)方法计算每一帧的基频,具体公式为其中,m是延迟,将信号x[n]与其延迟m个单位的版本x[n-m]相乘,对所有n从m到n-1的乘积进行求和,得到自相关函数r[m],对于周期性信号,ACF会在与信号周期相对应的延迟处出现峰值,根据出现的峰值计算周期,具体公式为:T为周期Fs为采样率,基频F0是周期的倒数,通过公式:计算得出; 将每帧的基频连接起来形成音高轮廓。 6.根据权利要求5所述的AI语音识别、推理、生成系统,其特征在于,所述S3中,具体融合步骤包括: 特征串联:将短时特征、中时特征、长时特征以及一阶和二阶差分特征串联起来,形成一个长特征向量。 7.根据权利要求6所述的AI语音识别、推理、生成系统,其特征在于,所述S4中,使用长特征向量来训练深度学习模型,具体包括以下步骤: 数据准备:将融合后的特征向量进行匹配,形成训练数据集; 模型选择:选择深度神经网络; 训练过程:使用训练数据集对模型进行训练,通过反向传播算法和梯度下降优化器来更新模型的参数。 8.AI语音识别、推理、生成方法,使用如权利要求7所述的AI语音识别、推理、生成系统,其特征在于,包括以下步骤: 步骤一、语音输入与预处理:用户通过语音输入模块输入语音,自适应噪声抑制模块实时过滤背景噪音,增强语音信号,对输入的语音信号进行预处理,包括降噪、标准化和分割; 步骤二、多尺度特征提取:对预处理后的语音信号进行特征提取; 提取短时特征,包括短时能量和短时过零率,用于捕捉语音信号的瞬时特性; 提取中时特征,包括MFCC,以反映语音的频谱特性; 提取长时特征,包括基频和音高轮廓,以捕捉语音的语调和节奏信息; 计算一阶和二阶差分动态特征,捕获语音信号随时间的动态变化; 步骤三、特征融合:将提取的短时特征、中时特征、长时特征以及一阶和二阶差分特征进行串联融合,形成一个综合的特征向量,该向量富含多尺度的语音信息。 9.根据权利要求8所述的AI语音识别、推理、生成方法,其特征在于,还包括以下步骤: 步骤四、模型训练与识别:利用融合后的特征向量训练深度神经网络,通过反向传播算法和梯度下降优化器来更新模型的参数,以最小化预测误差,将待识别的语音信号输入训练好的模型进行识别,并输出识别结果。 10.根据权利要求9所述的AI语音识别、推理、生成方法,其特征在于,还包括以下步骤: 步骤五、推理与生成:推理模块根据识别的语音内容进行逻辑推理,生成模块根据推理结果生成相应的输出。
相关文献
评论
法律状态详情>>
相关作者
相关机构