表格识别技术研究进展
表格广泛存在于科技文献、财务报表、报纸杂志等各类文档中,用于紧凑地存储和展现数据,蕴含着大量有用信息.表格识别是表格信息再利用的基础,具有重要的应用价值,也一直是模式识别领域的研究热点之一.随着深度学习的发展,针对表格识别的新研究和新方法纷纷涌现.然而,由于表格应用场景广泛、样式众多、图像质量参差不齐等因素,表格识别领域仍然存在着大量问题亟需解决.为了更好地总结前人工作,为后续研究提供支持,本文围绕表格区域检测、结构识别和内容识别等3个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内外的发展历史和最新进展.梳理了表格识别相关数据集及评测标准,并基于主流数据集和标准,分别对表格区域检测、结构识别、表格信息抽取的典型方法进行了性能比较.然后,对比分析了国内相对于国外,在表格识别方面的研究进展与水平.最后,结合表格识别领域目前面临的主要困难与挑战,对未来的研究趋势和技术发展目标进行了展望.
表格区域检测、表格结构识别、表格内容识别、深度学习、单元格识别、表格信息抽取
27
TP391.4(计算技术、计算机技术)
国家重点研发计划2019YFB1406303
2022-06-28(万方平台首次上网日期,不代表论文的发表时间)
共20页
1898-1917