10.3969/j.issn.1004-9037.2008.04.015
从Postscript格式文献中提取数学公式的方法
从Postscript格式文献中提取识别数学公式,是数学公式识别领域的一个新的研究方向.主要针对以Word和Latex为生成源的Postscript文档,提出了基于内容的数学公式提取方法.首先重载了Postscript语言中的一些相关命令,先后提取出Postscript文档中的字符及由线段连接得到的图形.然后根据字符名称、字体信息、位置信息对字符进行判断分析,提取出其中的数学符号;对提取出的图形,进行编码以识别出其对应的教学符号.最后,根据得到的数学符号之间的空间位置关系,借助启发式规则,将数学符号合并,提取出完整的数学公式.实验结果表明,该方法数学符号识别的正确率达到99.3%.
数学公式提取、Postscript、启发式规则
23
TP391.1(计算技术、计算机技术)
2008-11-03(万方平台首次上网日期,不代表论文的发表时间)
共5页
454-458