一种基于深度稠密网络的语音转换可视化检测方法

引用

摘要：

本发明涉及一种基于深度稠密网络的语音转换可视化检测方法，其特征在于该方法包括以下步骤：首先利用训练模块选取训练数据和神经网络模型进行数据训练，并将符合拟合度要求的深度稠密网络模型保存到本地；其次利用批量测试模块读取深度稠密网络模型并输入批量的待测试数据从而得到总的识别准确率，进而得到衡量模型优劣性的标准；最后利用单用例测试模块读取深度稠密网络模型并输入单用例图谱数据，从而识别该单用例图谱数据对应的音频片段的真伪。该方法可以实现对语音合成、重录语音、语音转换、语音变换等有效手段处理过的音频片段的高精准度识别。

专利类型：发明专利

申请/专利号：CN202110090879.3

申请日期：2021-01-22

公开/公告号：CN112767951A

公开/公告日：2021-05-07

主分类号：G10L17/04(2013.01)

申请/专利权人:广东技术师范大学

发明/设计人:王泳;魏骏北

主申请人地址:510665 广东省广州市天河区中山大道293号

专利代理机构:广东有知猫知识产权代理有限公司

代理人:胡强

国别省市代码:广东;44

权利要求：

1.一种基于深度稠密网络的语音转换可视化检测方法，包括训练模块、批量测试模块和单用例测试模块，其特征在于，所述基于深度稠密网络的语音转换可视化检测方法主要包括以下步骤：首先，利用训练模块选取训练数据和神经网络模型进行数据训练，并将符合拟合度要求的深度稠密网络模型保存到本地；其次，利用批量测试模块读取深度稠密网络模型并输入批量的待测试数据从而得到总的识别准确率，进而得到衡量模型优劣性的标准；最后，利用单用例测试模块读取深度稠密网络模型并输入单用例图谱数据，从而识别该单用例图谱数据对应的音频片段的真伪；所述神经网络模型中，其内部的每层的输出尺寸都有特征图，并且任何层都直接连接到其所有的子层，如等式(3)所示， Xl＝Hl(”X0,X1,...,Xl-1”) (3)，其中X0，X1，Xl-1表示层l的之前层的输出，”X0,X1,...,Xl-1”表示串联操作。 2.根据权利要求1所述的一种基于深度稠密网络的语音转换可视化检测方法，其特征在于，所述基于深度稠密网络的语音转换的可视化检测过程引入了一种相位声码器，该相位声码器利用STFT忽略的相位信息来改善音频频率的估计，以打破时间和音频频率特性之间的联系，从而保持速度不变。

专利专题