PDF阅读器的设计与实现

引用

摘要：

为有效提取PDF(portable document format)文件中的文字、图片、图形信息,提出了包含文件预处理、显示预处理、功能扩展、显示4个单元的PDF阅读器的实现模型.基于PDF文件结构特点,提出了忽略次要信息定位关键位置的解析思路.在此基础上,针对FlatcDecode、DCTDecode和CCITTFFaxDecode这3种过滤器处理的数据流,给出了详细的解决方案,然后对PDF页面内容进行两次解析,设计相应的文字图形等数据结构保存结果,最后对数据利用和功能扩展进行了讨论.通过实验结果表明,该模型能较好地实现PDF信息提取和显示,有利于PDF在中文信息处理领域中的进一步开发利用.

关键词：可移植文档格式、阅读器、文件解析、图像提取、信息处理

所属期刊栏目：31

分类号：TP391(计算技术、计算机技术)

在线出版日期：2010-06-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：1635-1638

英文信息展示

期刊专题