DOI：10.3969/j.issn.1002-3208.2019.03.011.

基于Tesseract的医学化验单内容识别技术

引用

摘要：

目的由于化验单内容可以真实地记录患者健康状态,因此将纸质的化验单转为医疗电子档案进行存储在进行保险理赔、转院、远程会诊、建立健康档案时都具有重要作用.但目前在临床上尚缺乏能识别化验单内容,把化验单直接转成医疗电子档案的工具,为此本文设计了一套完整的自动化医学化验单内容的光学字符识别(optical character recognition,OCR)方法.方法首先对化验单图像进行预处理,利用大津法对化验单图像进行二值化、用霍夫变换对图像进行抗扭斜和特征提取,然后使用Tesseract的集束搜索算法和K邻近算法对化验单内容进行识别,对字库进行训练,利用医学词典文件与模糊字文件来对识别内容进行纠错,并以此建立医学化验单OCR引擎.最后利用从上海某社区医院收集的302条化验单数据对OCR引擎的准确率进行了评估.结果经评估验证,本文方法的识别准确率为92.72％,可基本满足临床需求.结论基于Tesseract建立的医学化验单OCR引擎可以免去手动输入化验单数据的麻烦,医生仅需拍照上传化验单照片,即可将化验单中的内容转成结构化医疗电子档案,极大提高了医生的工作效率,有助于数据的进一步利用.

关键词：化验单、光学字符识别、图像处理、错误校正

所属期刊栏目：38

分类号：R318.08;TP391.5(医用一般科学)

资助基金：国家自然科学基金81801797

在线出版日期：2019-07-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：283-289

英文信息展示

期刊专题