10.16249/j.cnki.2096-4617.2022.01.011
MLWS2021藏文分词评测报告
藏文分词是藏文信息处理中关键的基础性工作,是机器翻译、智能检索、自然语言理解等智能信息处理的前提.藏文作为"少数民族语言分词技术评测MLWS2021"的一种评测语种,在MLWS2017的基础上,语料从新闻类单一语料扩展为新闻、法律、经济、小说和语言文字等多领域综合语料,训练语料和测试语料的质和量都有了较大的提升.文章介绍MLWS2021中藏文分词评测语料的构成、收集、整理情况;再分析藏文分词评测分析软件设计思想的基础上,针对测试语料的多样性,设计了"文本对比"和"藏文评测分析"软件,按需建设评测软件测试语料并测试证明了软件的正确性;最后,在不破坏评测语料的基础上,对语料进行预处理和测试,给出了参赛队不同模型的藏文分词评测结果并验证了结果的正确性.
MLWS2021、藏文分词、评测
6
TP391.1(计算技术、计算机技术)
国家自然科学基金;国家语委科研重点项目;自治区一流课程建设项目
2022-06-15(万方平台首次上网日期,不代表论文的发表时间)
共8页
82-89