基于BCC的离合词离析形式自动识别研究
该文从中文信息处理角度对动宾型离合词自动识别进行研究.通过分析离合词在实际语料中的使用特点以及离合词离析成分在大规模语料库中的表现形式,从离合词内部入手,形式化地表示离合词的离析形式,总结自动识别的规则,设计基于规则的自动识别算法.经过优化后,该算法在20亿字的语料中达到了91.6%的正确率.离合词语素构词能力强,分词与词性标注错误,规则的不完整性,语料本身的错误,以及人工标注的疏漏等是影响实验结论的主要因素.
离合词、BCC、离析形式、自动识别
31
H0 ;TP3
国家高技术研究发展计划863计划2015AA015409
2017-04-17(万方平台首次上网日期,不代表论文的发表时间)
共10页
75-83,93