SCID:用于富含视觉信息文档图像中信息提取任务的扫描中文票据数据集
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.11834/jig.220911

SCID:用于富含视觉信息文档图像中信息提取任务的扫描中文票据数据集

引用
目的 视觉富文档信息抽取致力于将输入文档图像中的关键文字信息进行结构化提取,以解决实际业务问题,财务票据是其中一种常见的数据类型.解决该类问题通常需要应用光学字符识别(optical character recogni-tion,OCR)和信息抽取等多个领域的技术.然而,目前公开的相关数据集的数量较少,且每个数据集中包含的图像数量也较少,这都成为了制约该领域技术发展的一个重要因素.为此,本文收集、标注并公开发布了一个真实中文扫描票据数据集SCID(scanned Chinese invoice dataset),包含6类常见财务票据,共40 716幅图像.方法 该数据集提供了用于OCR任务和信息抽取的两种标签.针对该数据集,本文提出一个基于LayoutLM v2(layout language model v2)的基线方案,实现了从输入图像到最终结果的端到端推理.基于该数据集承办的CSIG(China Society of Image and Graphics)2022票据识别与分析挑战赛,吸引了大量科研人员参与,并提出了优秀的解决方案.结果 在基线方案实验中,分别验证了使用OCR引擎推理、OCR模型精调和OCR真值3种设定的实验结果,F1值分别为0.768 7、0.8570和0.985 7,一方面证明了 LayoutLM v2模型的有效性;另一方面证明了该场景下OCR的挑战性.结论 本文提出的扫描票据数据集SCID展示了真实OCR技术应用场景的多项挑战,可以为文档富视觉信息抽取相关技术领域研发和技术落地提供重要数据支持.该数据集下载网址:https://davar-lab.github.io/dataset/scid.html.

数据集、财务票据、视觉富文档、信息抽取、光学字符识别(OCR)、多模态信息

28

TP391.4(计算技术、计算机技术)

2023-09-08(万方平台首次上网日期,不代表论文的发表时间)

共16页

2298-2313

相关文献
评论
暂无封面信息
查看本期封面目录

中国图象图形学报

1006-8961

11-3758/TB

28

2023,28(8)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn