10.3969/j.issn.1673-629X.2014.01.052
绿色网络PDF提取系统
随着信息技术迅猛发展,很多不良信息与文化通过PDF文档传播,而传统的提取PDF内容的方法无法适应绿色网络提供优质内容并过滤不良PDF的社会需求。文中提出通过建立层次关键字自动机快速提取PDF内容并过滤不良PDF内容的方法。在提取准确性基本相同的情况下,文中方法提升了绿色网络系统提取PDF文档的速度,所用的时间仅为PDFBox方法的16%~36%,并能提供更好地过滤不良PDF的服务。
绿色网络、自动机、提取信息、不良内容PDF、过滤
TP311(计算技术、计算机技术)
国家创新基金项目10C26224504901;国家自然科学基金资助项目81260319;广西自然科学基金项目2011GXNSFB0180825
2014-01-22(万方平台首次上网日期,不代表论文的发表时间)
共4页
204-207