10.19678/j.issn.1000-3428.0065977
面向网络舆情分析的多任务学习策略时间卷积网络
检测与识别网络中语音的情感状态有助于把控舆情信息,若能同时辨别说话人及其性别,则对掌握舆情的真实意图更有帮助.基于数据集EMODB,提出用于情感分类、说话人辨别和性别识别的多任务学习策略时间卷积网络(DTCN).针对多任务学习中数据集较小的问题,设计数据增强技术,在不同信噪比下采用加噪的方式对数据集EMODB进行扩充,构建单信噪比含噪数据集EMODB-10、EMODB-5、EMODB0、EMODB5、EMODB10以及多信噪比含噪数据集EMODBM.同时,通过研究单一噪声和混合噪声,验证不同噪声对DTCN模型性能的影响.为了更好地表征数据特性,提出适用于多任务学习的声学特征集.实验结果表明,在具有正信噪比和多信噪比含噪数据集上进行测试时,DTCN模型在多任务学习场景下的表现均优于基线,较容易辨别说话人性别,且随着噪声种类增多,对多任务学习的性能不断提高,在混合噪声下鲁棒性和泛化性更好.
语音情感识别、策略时间卷积网络、多任务学习、数据扩充、特征提取
49
TP183(自动化基础理论)
国家自然科学基金;青海省自然科学基金项目
2023-10-20(万方平台首次上网日期,不代表论文的发表时间)
共9页
89-96,104