10.3969/j.issn.1003-0077.2005.05.013
一个基于多代码页的中文屏幕实时解释引擎的设计
目前,在计算机中汉字有多种代码页,汉字的多代码页并存现象将长期存在.为了实现汉字多代码页并存,需要汉字代码页自动识别技术的支撑.屏幕实时解释引擎是目前各种在线字典、词典以及教学软件的核心技术,此技术目前存在不能跨代码页,取词不全面、不正确等缺陷.本文主要针对以上情况,描述了采用汉字内码的代码页自动识别技术以及优化的自动屏幕取词技术的中文屏幕实时解释引擎的系统架构,并阐述了数据词典的设计以及在设计中采用的关键技术.对五百万汉字样本的测试中,应用此引擎的在线词典对有意义短字符串(不包括单字)代码页的识别率可以达到99%以上.
计算机应用、中文信息处理、汉字代码页自动识别、屏幕取词、ISO10646
19
TP391.1(计算技术、计算机技术)
江苏省高校自然科学基金01kjb520001,04KKB320134
2005-10-13(万方平台首次上网日期,不代表论文的发表时间)
共7页
90-96