10.3969/j.issn.1003-0077.2006.06.010
手写中文地址识别后处理方法的研究
OCR(光学字符识别技术)作为方便有效的字体识别技术,在办公自动化、信息恢复、数字图书馆等方面发挥着日益重要的作用.语言模型在OCR后处理,特别是在中文的文字识别后处理方面有着广泛的应用.本文针对手写中文地址的后处理,讨论了语言模型的粒度对识别正确率的影响,分析了基于字和基于词的语言模型各自的优点和缺点,并采用了基于词的语言模型,在此基础上提出了加权词图搜索算法.实验证明,在58269条中文手写地址的测试集上,手写地址的整体识别率由原来的28.56%上升到了75.66%,错误率下降了65.93%,大大提高了系统的性能.
人工智能、模式识别、OCR、语言模型、后处理
20
TP391(计算技术、计算机技术)
国家自然科学基金60321002;富士通研究开发中心资助项目
2006-12-07(万方平台首次上网日期,不代表论文的发表时间)
共6页
69-74