一种基于聚类技术的图书目录识别方法
分析了目录识别研究的现状,在总结当前技术优缺点的基础上,提出了一种适应性和效率兼顾的目录识别方法.根据图书目录具有风格一致性的特点,利用聚类技术发现目录装饰性内容,生成具有自适应性的目录布局模型,然后利用该模型生成目录条目及其层次关系.实验结果表明,该方法在准确度和效率上均取得了较好的效果,尤其是有效地处理了存在装饰性内容、折行和多种层次布局的复杂目录.该方法已应用于电子图书生产线,显著提高了原电子目录制作系统的生产效率.
目录识别、文档逻辑结构、文档分析和理解、聚类
46
TP301(计算技术、计算机技术)
国家科技支撑计划2006BAH02A21
2017-01-18(万方平台首次上网日期,不代表论文的发表时间)
共8页
531-538