10.16208/j.issn1000-7024.2018.03.031
连体段特征聚类的维吾尔文文档图像单词切分
为有效解决文档图像中单词漏切分和过切分问题,分析维吾尔文文档图像的无嵌入式双栏版面特性和文字特点.综合考虑连体段位置信息、密度及高宽特征和相邻连体段重叠性,提出一种文档图像中精确切分完整单词块的方法.将图文混排的版面分析与重叠域合并相结合,采用两级K-means分类策略,有效避免标点符号的影响,增强完整单词块的被切分能力.实验结果表明,该算法比连通域搜索算法和投影算法具有更高的切分精度,在多文种图像单词切分中具有更高的有效性.
双栏复杂文档图像、版面分析、连体段特征、单词切分、重叠率
39
TP391.1(计算技术、计算机技术)
新疆维吾尔自治区少数民族科学技术人才特殊培训计划基金项目201323121
2018-06-01(万方平台首次上网日期,不代表论文的发表时间)
共6页
774-779