一种多人会话语音中的说话人重要程度估计方法
本发明公开了一种多人会话语音中的说话人重要程度估计方法,包括S1读入记录有多人会话语音的音频文件;S2说话人分割:检测上述多人会话语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段;S3说话人聚类:把相同说话人的语音段聚在一类,得到音频文件中说话人个数、各个说话人的语音及各个说话人的语音段数;S4说话人语速估计:分别从上述各个说话人的语音中提取能量包络,找出能量包络的局部最大值点,确定音节数,估计各个说话人的语速;S5基于语速、语音时长及语音段数,估计说话人的重要程度,本发明为多人会话语音的快速浏览、摘要提取、说话人检索等奠定基础。
发明专利
CN201310311072.3
2013-07-23
CN103400580A
2013-11-20
G10L17/00(2013.01)I
华南理工大学
李艳雄;王梓里;吴伟;贺前华
510640 广东省广州市天河区五山路381号
广州市华学知识产权代理有限公司 44245
蔡茂略
广东;44
一种多人会话语音中的说话人重要程度估计方法,其特征在于,包括如下步骤:S1读入记录有多人会话语音的音频文件;S2说话人分割:检测上述多人会话语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段,所述语音段的个数等于改变点个数加1;S3说话人聚类:把相同说话人的语音段聚在一类,得到音频文件中说话人个数、各个说话人的语音时长及各个说话人的语音段数;S4说话人语速估计:分别从上述各个说话人的语音时长中提取能量包络,并找出能量包络的局部最大值点,进一步确定音节数,估计各个说话人的语速;S5基于语速、语音时长及语音段数,估计说话人的重要程度。