基于集成特征和神经网络的语音可视化方法

引用

摘要：

本发明涉及一种基于集成特征和神经网络的语音可视化方法，其特殊之处是：包括语音信号预处理、特征提取、特征优化、神经网络设计、位置信息映射、主颜色编码、图案信息编码和图像合成八个步骤。本发明通过集成不同的语音特征进入一幅图像中为聋哑人创造了语音信号的可读模式，而且不同位置上的图像颜色不同，这就更好地利用了聋哑人对色彩刺激的视觉记忆能力较强的优点；为减少屏幕容纳负荷和观察者记忆负担，提出采用声调特征来对图案信息进行编码，这样由相同声韵母不同声调构成的语音会显就示在同一个位置上。与现有方法相比，本发明具有很好的鲁棒性和分类定位能力，在聋哑人辅助学习方面，收到了良好的效果。?

专利类型：发明专利

申请/专利号：CN201110200635.2

申请日期：2011-07-18

公开/公告号：CN102231281A

公开/公告日：2011-11-02

主分类号：G10L21/06(2006.01)I

申请/专利权人:渤海大学

发明/设计人:韩志艳;伦淑娴;王健;王东;于忠党;王巍;邰治新

主申请人地址:121000 辽宁省锦州市高新技术产业区科技路19号

专利代理机构:锦州辽西专利事务所 21225

代理人:李辉

国别省市代码:辽宁;21

权利要求：

一种基于集成特征和神经网络的语音可视化方法，其特征是：包括以下步骤：（1）语音信号预处理通过麦克风输入语音信号，由处理单元采样量化后获得相应语音数据，然后进行预加重、分帧加窗和端点检测；（2）特征提取（2.1）?采用基于Hilbert?Huang变换的方法来估算预处理后的语音信号共振峰频率；（2.2）?计算出预处理后语音信号的基音频率曲线的一次斜率、二次斜率、曲线的谷点和曲线的平坦度作为声调特征参数；（2.3）计算出基于MUSIC和感知特性的鲁棒特征参数（PMUSIC?MFCC）：PMUSIC?MFCC1～PMUSIC?MFCC?12；（2.4）计算出基于小波包变换的语音信号鲁棒特征参数（WPTC）：WPTC1～WPTC20；（3）特征优化采用基于正交实验设计的语音识别特征参数优化的方法对所述的PMUSIC?MFCC1～PMUSIC?MFCC12和WPTC1～WPTC20进行优化，得到优化特征参数组合；（4）神经网络设计所述的神经网络是由神经网络Ⅰ和神经网络Ⅱ组成，其中神经网络Ⅰ的输入层有4个神经元，输出层有2个神经元，神经网络Ⅱ的输入层的数量与优化特征参数组合的数量相同，输出层有n个神经元，n为7、8或9；（5）位置信息映射将优化特征参数组合作为神经网络Ⅱ的输入，将特征编成具有m个码的方阵，2n?1≤m≤2n，按着由左到右、由上到下的顺序依次对应着图像中的一个位置并用“0”、“1”组合进行编码，每个位置对应一个无调单语音；（6）主颜色编码采用共振峰特征来对主颜色信息进行编码，把所有的共振峰特征值F1、F2、F3分别求平均值，然后通过R=5F1/F3、G=3F3/5F2、B=F2/3F1，将其转换成主颜色信息；（7）图案信息编码采用声调特征来对图案信息进行编码，四个声调特征参数作为神经网络Ⅰ的输入，神经网络Ⅰ的输出即为相应的图案信息，用00、01、10、11分别表示阴平、阳平、上声和去声；?（8）图像合成按照单语音产生的先后顺序，把位置信息、主颜色信息与图案信息融合在一幅图像中在显示屏上显示，每幅图像显示2～5秒后消失。

专利专题