10.3969/j.issn.1671-6833.2011.04.025
CRF模型中参数f在字标注汉语分词中的适用性研究
汉语分词作为中文信息处理的首要环节,其精确度对后续步骤的准确度和处理速度成逐级放大性影响.如何提高分词的准确度和处理速度成为近年研究的重点.采用条件随机场模型进行汉语分词,通过定量分析CRF工具包训练参数f,研究减少特征对分词准确度以及模型大小的影响程度,实验分别在国际汉语分词评测Bakeoff2005提供的北京大学和微软亚洲研究院两个语料上进行封闭测试,并对比采用不同模板时增加f参数值对分词性能的影响,最终得出实验结果:随着f参数值的增加,分词的准确度和生成的模型大小成正比,且F值减小的程度相对训练生成模型大小的减小程度要小得多.
汉语分词、字标注、f阈值、模型大小、CRF++工具包
32
TP391(计算技术、计算机技术)
国家自然科学基金资助项目60875081;河南省教育厅高等学校青年骨干教师资助项目2009GCJS-108
2011-12-23(万方平台首次上网日期,不代表论文的发表时间)
共4页
103-106