10.3969/j.issn.1673-4785.2009.03.013
利用人类计算技术的语音语料库标注方法及其实现
提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Web的语言学习系统来收集由大量学习者(用户)输入的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确标注.为了保证通过这种人类计算方法获得的标注文本的质量,使用了一些计算机辅助机制来校验收集到的标注的可靠性.采用这种方法实现语音语料库标注的主要优点在于将语料库标注和语言学习相结合,无需专门投入大量的人力来进行枯燥乏味的语料库标注工作,从而节省了语料库标注的成本.对这种基于人类计算的语音语料库标注技术进行了探讨,说明了用于收集用户输入的语言学习系统的设计以及标注生成系统的设计.系统的应用表明,该标注方法能够有效、低成本地生成语音语料库的词汇标注和音标标注.
语音语料库标注、人类计算、分布式知识获取、基于Web的语言学习
4
TP39(计算技术、计算机技术)
国家留学基金资助项目2006104705;福建省自然科学基金资助项目2006J0043;厦门大学"985工程"二期信息创新平台资助项目0000-X07204
2009-08-19(万方平台首次上网日期,不代表论文的发表时间)
共8页
270-277