一种多人会话语音中的说话人重要程度估计方法

引用

摘要：

本发明公开了一种多人会话语音中的说话人重要程度估计方法，包括S1读入记录有多人会话语音的音频文件；S2说话人分割：检测上述多人会话语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段；S3说话人聚类：把相同说话人的语音段聚在一类，得到音频文件中说话人个数、各个说话人的语音及各个说话人的语音段数；S4说话人语速估计：分别从上述各个说话人的语音中提取能量包络，找出能量包络的局部最大值点，确定音节数，估计各个说话人的语速；S5基于语速、语音时长及语音段数，估计说话人的重要程度，本发明为多人会话语音的快速浏览、摘要提取、说话人检索等奠定基础。

专利类型：发明专利

申请/专利号：CN201310311072.3

申请日期：2013-07-23

公开/公告号：CN103400580A

公开/公告日：2013-11-20

主分类号：G10L17/00(2013.01)I

申请/专利权人:华南理工大学

发明/设计人:李艳雄;王梓里;吴伟;贺前华

主申请人地址:510640 广东省广州市天河区五山路381号

专利代理机构:广州市华学知识产权代理有限公司 44245

代理人:蔡茂略

国别省市代码:广东;44

权利要求：

一种多人会话语音中的说话人重要程度估计方法，其特征在于，包括如下步骤：S1读入记录有多人会话语音的音频文件；S2说话人分割：检测上述多人会话语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段，所述语音段的个数等于改变点个数加1；S3说话人聚类：把相同说话人的语音段聚在一类，得到音频文件中说话人个数、各个说话人的语音时长及各个说话人的语音段数；S4说话人语速估计：分别从上述各个说话人的语音时长中提取能量包络，并找出能量包络的局部最大值点，进一步确定音节数，估计各个说话人的语速；S5基于语速、语音时长及语音段数，估计说话人的重要程度。

专利专题