10.13663/j.cnki.lj.2020.12.007
多源数据环境下公共文化服务机构年报的数据抽取研究
一方面公共文化服务机构数据资源丰富却难以集成,另一方面公共文化领域缺少宏观的管理数据.年报文档中包含着场馆信息、活动数据和业务数据等丰富的数据,而且年报的数据质量相对较高,是公共文化服务领域一种重要的数据来源.如何从年报文档中抽取数据并进行有效集成,成为多源数据环境下的一项重要研究内容.编写爬虫程序下载年报文档,判定PDF文件格式、总结年报的文本结构和特定数据项的上下文特征,通过正则表达式对各类年报数据建立模板进行匹配并抽取.本文针对数据位于段落标题中的数据、有明显数字特征的数据和有固定统一格式的大事记等不同类型的数据项设计了3套模板,取得较好的匹配和抽取效果.
图书馆、文化馆、年报、数据抽取、公共文化
39
2021-03-08(万方平台首次上网日期,不代表论文的发表时间)
共9页
52-60