DOI：10.3969/j.issn.1003-0077.2006.06.010

手写中文地址识别后处理方法的研究

引用

摘要：

OCR(光学字符识别技术)作为方便有效的字体识别技术,在办公自动化、信息恢复、数字图书馆等方面发挥着日益重要的作用.语言模型在OCR后处理,特别是在中文的文字识别后处理方面有着广泛的应用.本文针对手写中文地址的后处理,讨论了语言模型的粒度对识别正确率的影响,分析了基于字和基于词的语言模型各自的优点和缺点,并采用了基于词的语言模型,在此基础上提出了加权词图搜索算法.实验证明,在58269条中文手写地址的测试集上,手写地址的整体识别率由原来的28.56%上升到了75.66%,错误率下降了65.93%,大大提高了系统的性能.

关键词：人工智能、模式识别、OCR、语言模型、后处理

所属期刊栏目：20

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金60321002;富士通研究开发中心资助项目

在线出版日期：2006-12-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：69-74

英文信息展示

期刊专题