一种语音文件裁剪还原方法、装置、设备和存储介质

引用

摘要：

本发明提出一种语音文件裁剪还原方法、装置、设备和存储介质，设置最大静默时间和设置最小静默值；获取原始语音文件；获取原始语音文件中音频能量值低于最小静默值的无效语音片段；判断无效语音片段时长是否大于最大静默时间；对时长大于最大静默时间的无效语音片段的起点和终点进行裁剪；剔除裁剪得到无效语音片段，获得多段有效语音片段；顺序拼接多段有效语音片段，获得还原语音文件；识别语音文件中的静音部分，在语音裁剪时，可以从静音部分裁剪，保证语音片段的完整性，避免出现断词的现象，提高语音分析结果的正确率。

专利类型：发明专利

申请/专利号：CN202011046908.8

申请日期：2020-09-29

公开/公告号：CN112185424A

公开/公告日：2021-01-05

主分类号：G10L25/78(2013.01)

申请/专利权人:国家计算机网络与信息安全管理中心

发明/设计人:王佩;李扬曦;刘志会;史建文;温志斌;郝振江

主申请人地址:100029 北京市朝阳区裕民路甲3号

专利代理机构:北京知联天下知识产权代理事务所(普通合伙)

代理人:张陆军

国别省市代码:北京;11

权利要求：

1.一种语音文件裁剪还原方法，其特征在于，设置最大静默时间和设置最小静默值；获取原始语音文件；获取原始语音文件中音频能量值小于等于最小静默值的无效语音片段；判断无效语音片段时长是否大于最大静默时间；对时长大于最大静默时间的无效语音片段的起点和终点进行裁剪；剔除裁剪得到无效语音片段，获得多段有效语音片段；顺序拼接多段有效语音片段，获得还原语音文件。 2.根据权利要求1所述的还原方法，其特征在于，所述设置最小静默值具体包括：采集原始语音文件初始静音段的平均能量值；设置最小静默值等于平均能量值。 3.根据权利要求1所述的还原方法，其特征在于，所述设置最小静默值具体包括：采集原始语音文件初始静音段的平均能量值；所述平均能量值乘以预设系数得到经验能量值；设置最小静默值等于经验能量值。 4.根据权利要求1-3中任一项所述的还原方法，其特征在于，所述获取原始语音文件中音频能量值低于最小静默值的无效语音片段包括：在原始语音文件上等时间间隔设置采样点，在采样点采集音频能量值；连续至少P个音频能量值大于最小静默值，并且连续至少Q个音频能量值小于等于最小静默值，P个采样点与Q个采样点之间无采样点，P个采样点与Q个采样点之间为无效语音片段的起点；连续至少M个音频能量值小于等于最小静默值，并且连续至少N个音频能量值大于最小静默值，M个采样点与N个采样点之间无采样点，M个采样点与N个采样点之间为无效语音片段的终点。 5.根据权利要求4所述的还原方法，其特征在于，P＝Q＝M＝N。 6.根据权利要求1-3中任一项所述的还原方法，其特征在于，所述获取原始语音文件中音频能量值低于最小静默值的无效语音片段包括：将原始语音文件等时间间隔分割形成多段分割单元，每个分割单元设置多个采样点，在采样点采集音频能量值；连续至少A个分割单元内的平均音频能量值大于最小静默值，并且连续至少B个分割单元内的平均音频能量值小于等于最小静默值，A个分割单元与B个分割单元之间无分割单元，A个分割单元与B个分割单元之间为无效语音片段的起点；连续至少C个分割单元内的平均音频能量值小于等于最小静默值，并且连续至少D个分割单元内的平均音频能量值大于最小静默值，C个分割单元与D个分割单元之间无分割单元，C个分割单元与D个分割单元之间为无效语音片段的终点。 7.根据权利要求6所述的还原方法，其特征在于，A＝B＝C＝D。 8.根据权利要求1-3、5、7中任一项所述的还原方法，其特征在于，获取原始语音文件的摘要信息；计算还原语音文件的摘要信息；比对原始语音文件的摘要信息和还原语音文件的摘要信息是否相同。 9.根据权利要求1-3、5、7中任一项所述的还原方法，其特征在于，获取原始语音文件的长度；计算还原语音文件的长度，计算无效语音片段的长度，将还原语音文件的长度和无效语音片段的长度求和；判断原始语音文件的长度与求和后的结果是否相等。 10.根据权利要求1-3、5、7中任一项所述的还原方法，其特征在于，获取有效语音片段的位置信息，基于有效语音片段的位置信息拼接有效语音片段。 11.根据权利要求1-3、5、7中任一项所述的还原方法，其特征在于，计算有效语音片段的片段名称，片段名称由当前时间戳加多位随机数字进行异或运算产生。 12.根据权利要求1-3、5、7中任一项所述的还原方法，其特征在于，获取原始语音文件的文件名称，将文件名称赋予还原语音文件。 13.一种语音文件裁剪还原装置，其特征在于，包括：设置模块，用于设置最大静默时间和最小静默值；语音获取模块，用于获取原始语音文件；片段获取模块，获取原始语音文件中音频能量值低于最小静默值的无效语音片段；判断模块，用于判断无效语音片段时长是否大于最大静默时间；裁剪模块，用于当无效语音片段时长大于最大静默时间，对无效语音片段的起点和终点进行裁剪，获得有效语音片段；还原模块，用于顺序拼接多个有效语音片段，获得还原语音文件。 14.一种语音文件裁剪还原设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-12中任一项所述方法的步骤。 15.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-12中任一项所述方法的步骤。

专利专题