一种训练数据生成方法、装置以及计算机可读存储介质
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种训练数据生成方法、装置以及计算机可读存储介质

引用
本发明公开了一种训练数据生成方法、装置以及计算机可读存储介质,包括:接收音频信息和对应的标注文本信息;生成对应于所述音频信息的语音识别文本信息和第一时间戳信息;内容匹配所述标注文本信息和语音识别文本信息,根据所述第一时间戳信息生成对应于所述标注文本信息的第二时间戳信息;根据所述第二时间戳信息,获取所述标注文本信息中的子文本训练信息和所述音频信息中的子音频训练信息。通过获取原始的音频信息以及标注文本信息,利用音频信息的时间戳信息从原始的音频信息以及标注文本信息中获取多个子音频训练信息和对应的子文本训练信息,从而得到大量并且高质量的语音训练数据,此过程效率高并且降低了耗费成本。

发明专利

CN202010738406.5

2020-07-28

CN112037769A

2020-12-04

G10L15/06(2013.01)

出门问问信息科技有限公司

陈晓宇;张彬彬;雷欣;李志飞

100044 北京市海淀区中关村大街19号办公A楼10层1001

北京乐知新创知识产权代理事务所(普通合伙)

张洋

北京;11

1.一种训练数据生成方法,其特征在于,所述方法包括: 接收音频信息和对应的标注文本信息; 生成对应于所述音频信息的语音识别文本信息和第一时间戳信息; 内容匹配所述标注文本信息和语音识别文本信息,根据所述第一时间戳信息生成对应于所述标注文本信息的第二时间戳信息; 根据所述第二时间戳信息,获取所述标注文本信息中的子文本训练信息和所述音频信息中的子音频训练信息。 2.根据权利要求1所述的方法,其特征在于,所述内容匹配所述标注文本信息和语音识别文本信息,包括: 利用编辑距离算法对所述标注文本信息和语音识别文本信息进行文本相似度匹配; 以所述标注文本信息作为基准,对相匹配的语音文本信息中的字/词进行文本对齐处理。 3.根据权利要求2所述的方法,其特征在于,所述根据所述第一时间戳信息生成对应于所述标注文本信息的第二时间戳信息,包括: 从所述第一时间戳信息中获取所述语音识别文本信息中每个字/词信息所对应的起始时间戳信息和结尾时间戳信息; 针对所述标注文本信息中每个字/词信息,复制对应于所述语音识别文本信息中相匹配字/词信息的起始时间戳信息和结尾时间戳信息,生成对应于所述标注文本信息的第二时间戳信息。 4.根据权利要求2所述的方法,其特征在于,在内容匹配所述标注文本信息和语音识别文本信息之前,所述方法包括: 通过语音识别系统获取所述语音识别文本信息中字/词信息所对应的置信度; 根据每个所述字/词信息的置信度,检测并替换所述标注文本信息中所对应的字/词信息。 5.根据权利要求1所述的方法,其特征在于,所述根据所述第二时间戳信息,获取所述标注文本信息中的子文本训练信息和所述音频信息中的子音频训练信息,包括: 对所述标注文本信息根据设定字符或者指定字符数量拆分为多个子文本训练信息,并从所述第二时间戳信息中分别获取多个所述子文本训练信息所对应的起始时间戳和结尾时间戳信息; 根据多个所述子文本训练信息所对应的起始时间戳和结尾时间戳信息,将所述音频信息拆分为多个子音频训练信息。 6.根据权利要求1所述的方法,其特征在于,在生成对应于所述音频信息的语音识别文本信息和第一时间戳信息之前,所述方法还包括: 将所述标注文本信息输入于语音识别系统中的语言模型进行训练,或者在语音识别系统进行解码时动态增加所述标注文本信息的概率值。 7.一种训练数据生成装置,其特征在于,所述装置包括: 信息接收模块,用于接收音频信息和对应的标注文本信息; 第一信息生成模块,用于生成对应于所述音频信息的语音识别文本信息和第一时间戳信息; 第二信息生成模块,用于内容匹配所述标注文本信息和语音识别文本信息,根据所述第一时间戳信息生成对应于所述标注文本信息的第二时间戳信息; 训练数据生成模块,用于根据所述第二时间戳信息,获取所述标注文本信息中的子文本训练信息和所述音频信息中的子音频训练信息。 8.根据权利要求7所述的装置,其特征在于,所述第二信息生成模块具体用于: 利用编辑距离算法对所述标注文本信息和语音识别文本信息进行文本相似度匹配; 以所述标注文本信息作为基准,对相匹配的语音文本信息中的字/词进行文本对齐处理。 9.根据权利要求8所述的装置,其特征在于,所述训练数据生成模块具体用于: 对所述标注文本信息根据设定字符或者指定字符数量拆分为多个子文本训练信息,并从所述第二时间戳信息中分别获取多个所述子文本训练信息所对应的起始时间戳和结尾时间戳信息; 根据多个所述子文本训练信息所对应的起始时间戳和结尾时间戳信息,将所述音频信息拆分为多个子音频训练信息。 10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-6任一项所述的训练数据生成方法。
相关文献
评论
法律状态详情>>
2020-12-04公开
2020-12-04公开
相关作者
相关机构