10.13232/j.cnki.jnju.2021.05.019
强混响环境下基于K-medoids特征聚类的话者计数
强混响环境下的话者数量是语音处理应用中的关键信息.以不同话者语音之间的频域幅度平方相干(Magnitude Squared Coherence,MSC)为特征进行话者计数,首先提取语音中的短时频域MSC特征,再采用K-medoids算法对其进行聚类得到话者个数.该方法无需麦克风间距和话者到麦克风之间相对距离的先验信息.不同混响条件、不同信噪比和不同麦克风间距的实验结果表明,频域MSC特征与话者是相干的,与基于广义互相关相位变换(Generalized Cross-Correlation Phase Transform,GCC-PHAT)的到达时间差方法(Time Difference of Arrival,TDOA)相比,本方法的话者计数准确率更高,对麦克风间距的敏感度更低,鲁棒性更优.
话者计数;幅度平方相干;K-medoids;广义互相关相位变换;到达时间差
57
TP391(计算技术、计算机技术)
国家自然科学基金12074192
2021-12-21(万方平台首次上网日期,不代表论文的发表时间)
共6页
875-880