一种语音转文字的处理方法、系统及设备

引用

摘要：

本发明公开了一种语音转文字的处理方法，包括以下步骤：采集语音信息作为训练数据，对训练数据进行发音标注，并以字为单元构建基于前馈神经网络结构的声学模型；获取语料信息，对其进行分词提取并生成分词文本，将分词文本训练生成语言模型；对原始声音依次进行声道转换处理、预加重处理、分帧处理以及加窗处理后，得到预处理声音；对预处理声音进行小波变换生成频谱图，提取频谱图的声学特征并对所述声学特征进行向量化，得到声学特征向量，将声学特征向量输入到声学模型和语音模型中，得到文本信息。

专利类型：发明专利

申请/专利号：CN202011003420.7

申请日期：2020-09-22

公开/公告号：CN112133288A

公开/公告日：2020-12-25

主分类号：G10L15/02(2006.01)

申请/专利权人:中用科技有限公司

发明/设计人:胡增;孙有效;刘雨晴

主申请人地址:230601 安徽省合肥市经济技术开发区宿松路3963号智能装备科技园E栋12层

专利代理机构:合肥天明专利事务所(普通合伙)

代理人:金凯

国别省市代码:安徽;34

权利要求：

1.一种语音转文字的处理方法，包括以下步骤：步骤一：采集语音信息作为训练数据，对训练数据进行发音标注，并以字为单元构建基于前馈神经网络结构的声学模型；步骤二：获取语料信息，对其进行分词提取并生成分词文本，将分词文本训练生成语言模型；步骤三：对原始声音依次进行声道转换处理、预加重处理、分帧处理以及加窗处理后，得到预处理声音；步骤四：对预处理声音进行小波变换生成频谱图，提取频谱图的声学特征并对所述声学特征进行向量化，得到声学特征向量，将声学特征向量输入到声学模型和语音模型中，得到文本信息。 2.根据权利要求1所述的语音转文字的处理方法，其特征在于：进行预加重处理时，将经过声道转换处理的原始声音通过高通滤波器，得到加重音频信号 s(n)＝x(n)-αx(n-1)；其中x(n)是原始声音信号在n时刻的采样值，x(n-1)是原始声音信号在n-1时刻的采样值，0.95≤α≤0.99；所述高通滤波器的传递函数H(z)＝1-a*z-1；a为预加重系数，z为对所述加重音频信号进行处理过程中的变化频域。 3.根据权利要求1所述的语音转文字的处理方法，其特征在于：对原始声音进行预加重处理后得到加重音频信号；对加重音频信号进行加窗处理时，将加重音频信号与布莱克曼窗函数相乘得到加窗声音信号，其中布莱克曼窗函数 4.根据权利要求1所述的语音转文字的处理方法，其特征在于：提取频谱图的声学特征时，提取MFCC特征、PLP特征或FBANK特征中的任意一种或任意多种。 5.根据权利要求1所述的语音转文字的处理方法，其特征在于：对预处理声音进行小波变换并生成频谱图时，采用的小波函数为 6.根据权利要求1所述的语音转文字的处理方法，其特征在于：采用高斯混合模型对声学特征进行向量化，并得到所述声学特征向量；步骤三中，将声学特征向量输入到声学模型和语音模型中。 7.一种语音转文字的处理系统，其特征在于，包括：声学模型生成模块，其采集语音信息作为训练数据，对训练数据进行发音标注，并以字为单元构建基于前馈神经网络结构的声学模型；语言模型生成模块，其获取语料信息，对其进行分词提取并生成分词文本，将分词文本训练生成语言模型；声音预处理模块，其对原始声音依次进行声道转换处理、预加重处理、分帧处理以及加窗处理后，得到预处理声音；文本生成模块，其对预处理声音进行小波变换生成频谱图，提取频谱图的声学特征并对所述声学特征进行向量化，得到声学特征向量，将声学特征向量输入到声学模型和语音模型中，得到文本信息。 8.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的处理方法。

专利专题