一种基于语音识别的构音障碍自动评估系统和方法

引用

摘要：

本发明提供一种基于语音识别的构音障碍自动评估系统和方法。该系统包括第一特征提取单元、第二特征提取单元、特征拼接单元、多层感知机、评估单元，特征拼接单元与第一特征提取单元、第二特征提取单元、多层感知机具有通信连接，评估单元与多层感知机具有通信连接，其中第一特征提取单元用于提取传统的句子级别的声学特征；第二特征提取单元提取帧级别的音频标注和帧音素‑概率的关系；特征拼接单元将第一特征提取的特征和第二特征提取单元提取的特征进行拼接；多层感知机基于拼接特征输出个体句子障碍程度和相应的预测概率；评估单元利用个体句子的预测概率信息得到总体评估结果。本发明能提高构音障碍估计的准确性和稳定性。

专利类型：发明专利

申请/专利号：CN201911234291.X

申请日期：2019-12-05

公开/公告号：CN112927696A

公开/公告日：2021-06-08

主分类号：G10L15/26(2006.01)

申请/专利权人:中国科学院深圳先进技术研究院

发明/设计人:茹克艳木·肉孜;苏荣锋;王岚

主申请人地址:518055 广东省深圳市南山区深圳大学城学苑大道1068号

专利代理机构:北京市诚辉律师事务所

代理人:耿慧敏

国别省市代码:广东;44

权利要求：

1.一种基于语音识别的构音障碍自动评估系统，其特征在于，包括第一特征提取单元、第二特征提取单元、特征拼接单元、多层感知机、评估单元，所述特征拼接单元与所述第一特征提取单元、所述第二特征提取单元、所述多层感知机具有通信连接，所述评估单元与所述多层感知机具有通信连接，其中：所述第一特征提取单元用于提取传统的句子级别的声学特征；所述第二特征提取单元用于提取帧级别的音频标注和帧音素-概率对应关系，该帧音素-概率对应关系是一个帧所含音素及其后验概率组成的两元组的集合；所述特征拼接单元将所述第一特征提取的特征和所述第二特征提取单元提取的特征进行拼接处理，获得拼接特征；所述多层感知机用于基于拼接特征输出个体句子障碍程度类别和相应的预测概率；所述评估单元利用个体句子的预测概率信息得到总体评估结果。 2.根据权利要求1所述的基于语音识别的构音障碍自动评估系统，其特征在于，所述第二特征提取单元被配置为对每个句子音频提取音素时长、音素替换率、近似发音质量、帧模糊率或帧音素数中的一项或多项。 3.根据权利要求1所述的基于语音识别的构音障碍自动评估系统，其特征在于，所述多层感知机被配置为包括输入层、隐藏层和输出层，其中所述输出层设置为4个节点，分别对应“正常”、“轻微”、“中等”和“严重”四类构音障碍。 4.根据权利要求1所述的基于语音识别的构音障碍自动评估系统，其特征在于，所述第二特征提取单元被配置为：将标准文本标注和实际发音音频输入深度神经网络声学模型，通过强制对齐得到帧级别的关于118个发音的音频标注；将实际发音音频输入深度神经网络声学模型，得到深度神经网络声学模型的输出层每个节点对应的音素及相应的高斯概率密度函数；计算每一帧包含的音素及其后验概率，其中相同音素的高斯概率密度函数的输出相加得到音素后验概率，进而获得帧音素-概率对应关系。 5.根据权利要求1所述的基于语音识别的构音障碍自动评估系统，其特征在于，所述第二特征提取单元被设置为对每个句子音频提取元音音素时长、辅音音素时长、总体音素时长、辅音替换率、元音替换率、总体替换率、辅音近似发音质量的均值、元音近似发音质量的均值、总体近似发音质量的均值、句子帧模糊率、辅音音素数、元音音素数、帧音素数中的一项或多项。 6.根据权利要求1所述的基于语音识别的构音障碍自动评估系统，其特征在于，所述特征拼接单元被设置为将所述第一特征提取单元提取的特征和所述第二特征提取单元提取的特征进行最大-最小归一化作为所述多层感知机的输入。 7.一种基于语音识别的构音障碍自动评估方法，包括以下步骤：提取传统的句子级别的声学特征；提取帧级别的音频标注和帧音素-概率对应关系，该帧音素-概率对应关系是一个帧所含音素及其后验概率组成的两元组的集合；将所述传统的句子级别的声学特征和基于所述帧音素-概率对应关系提取的特征进行拼接处理，获得拼接特征；利用多层感知机基于所述拼接特征输出个体句子障碍程度类别和相应的预测概率；利用个体句子的预测概率信息得到总体评估结果。 8.根据权利要求7所述的基于语音识别的构音障碍自动评估方法，其特征在于，所述总体评估结果表示为：其中，N表示被评估的语音句子数量，P平均，p预测是多维向量，每个维度代表构音障碍程度的类别，p预测表示构音障碍程度的对应概率。

专利专题