基于Tesseract_OCR文字识别的研究
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1673-629X.2021.11.013

基于Tesseract_OCR文字识别的研究

引用
光学字符识别(optical character recognition,OCR),简单来说,主要是利用光学技术和计算机技术将目前所使用的印刷体字符通过检测每个像素的亮、暗模式转换成一个黑白图像的文件,然后再使用识别的手段将这个黑白图像的文件转换成计算机可以识别的文字.该文主要分为四个模块:文字信息提取、字符识别、系统实现、实验结果与分析.文字信息提取模块包括图像预处理、文字信息区域的截取和修正、字符分割,对输入的图片进行处理,以降低随机噪声,确保文字信息区域包含完整的文字信息,提高识别的准确性.使用Tesseract的OCR引擎对处理后的文字信息区域部分进行识别,提取出图片中的文字信息.微软基础类库(Microsoft foundation classes,MFC),是微软公司实现的一个C++类库,主要封装了一部分的API函数,灵活性大.最后,在VS2015环境下使用微软基础类库实现了一个文字识别系统,并对样本图片库进行系统的测试.测试结果表明,该系统具有更高的识别率.

光学字符识别;文字识别;Tesseract框架;微软基础类库;C++

31

TP391(计算技术、计算机技术)

江苏省自然科学基金-青年基金项目BK20140868

2021-11-23(万方平台首次上网日期,不代表论文的发表时间)

共5页

76-80

相关文献
评论
暂无封面信息
查看本期封面目录

计算机技术与发展

1673-629X

61-1450/TP

31

2021,31(11)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn