10.12045/j.issn.1007-3043.2019.08.015
用于大规模语料库建设的一种 汉语语句切分方法
在语音识别和语音合成大规模语料库的构建中,需要把较长内容的语音文件切分成一定字数要求的语音数据文件和对应的文本文件.一种有效的自动切分方法是通过对单字占用时间的预测和元音主体数目的统计来评估切分点的位置,实现对语音数据的自动切分.实验表明,使用该方法进行切分的一次成功率可以达到92.8%,参数适当调整后的二次成功率为96.3%.整个切分过程中,进行人工调整的工作量很小,适合快速构建大规模语料库.
元音主体、切分、语音合成、能熵比法
TN912.3
北京市教育委员会科技计划KM201410857001
2019-09-04(万方平台首次上网日期,不代表论文的发表时间)
共4页
70-73