DOI：10.11834/jig.220911

SCID:用于富含视觉信息文档图像中信息提取任务的扫描中文票据数据集

引用

摘要：

目的视觉富文档信息抽取致力于将输入文档图像中的关键文字信息进行结构化提取,以解决实际业务问题,财务票据是其中一种常见的数据类型.解决该类问题通常需要应用光学字符识别(optical character recogni-tion,OCR)和信息抽取等多个领域的技术.然而,目前公开的相关数据集的数量较少,且每个数据集中包含的图像数量也较少,这都成为了制约该领域技术发展的一个重要因素.为此,本文收集、标注并公开发布了一个真实中文扫描票据数据集SCID(scanned Chinese invoice dataset),包含6类常见财务票据,共40 716幅图像.方法该数据集提供了用于OCR任务和信息抽取的两种标签.针对该数据集,本文提出一个基于LayoutLM v2(layout language model v2)的基线方案,实现了从输入图像到最终结果的端到端推理.基于该数据集承办的CSIG(China Society of Image and Graphics)2022票据识别与分析挑战赛,吸引了大量科研人员参与,并提出了优秀的解决方案.结果在基线方案实验中,分别验证了使用OCR引擎推理、OCR模型精调和OCR真值3种设定的实验结果,F1值分别为0.768 7、0.8570和0.985 7,一方面证明了 LayoutLM v2模型的有效性;另一方面证明了该场景下OCR的挑战性.结论本文提出的扫描票据数据集SCID展示了真实OCR技术应用场景的多项挑战,可以为文档富视觉信息抽取相关技术领域研发和技术落地提供重要数据支持.该数据集下载网址:https://davar-lab.github.io/dataset/scid.html.

关键词：数据集、财务票据、视觉富文档、信息抽取、光学字符识别(OCR)、多模态信息

所属期刊栏目：28

分类号：TP391.4(计算技术、计算机技术)

在线出版日期：2023-09-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共16页

页码：2298-2313

英文信息展示

期刊专题