10.3969/j.issn.1001-5795.2012.03.002
日语自动词性赋码器的信度研究
词性自动赋码技术的日臻成熟为语料库建设提供了有力支撑.与本族语语料不同,学习者产出中充斥着大量错误.这必然会对赋码的准确性造成干扰.因此,除了精度以外,抗干扰能力也是需要着重考虑的因素.本文统计并比较了日语开源自动词性赋码器对学习者语料赋码的精度以及赋码信度与语料质量的相关性.从中发现,MeCab表现最出色,ChaSen次之,JUMAN则稍逊一筹.此外,研究证实,日语开源赋码器对学习者语料赋码的精度甚至超过了本族语语料.因此,完全可以充当语料库建设的可靠工具.
语料库、赋码、隐马尔科夫模型、日语
H319.3(英语)
2012年教育部人文社会科学研究青年基金项目课题"中国日语学习者表达失误的认知语言学研究12YJC740076"和上海外国语大学青年科研创新团队项目"基于日语学习者语料库的二语习得研究QJTD11MWW01"的研究成果
2012-08-15(万方平台首次上网日期,不代表论文的发表时间)
共5页
10-14