多源数据环境下公共文化服务机构年报的数据抽取研究
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.13663/j.cnki.lj.2020.12.007

多源数据环境下公共文化服务机构年报的数据抽取研究

引用
一方面公共文化服务机构数据资源丰富却难以集成,另一方面公共文化领域缺少宏观的管理数据.年报文档中包含着场馆信息、活动数据和业务数据等丰富的数据,而且年报的数据质量相对较高,是公共文化服务领域一种重要的数据来源.如何从年报文档中抽取数据并进行有效集成,成为多源数据环境下的一项重要研究内容.编写爬虫程序下载年报文档,判定PDF文件格式、总结年报的文本结构和特定数据项的上下文特征,通过正则表达式对各类年报数据建立模板进行匹配并抽取.本文针对数据位于段落标题中的数据、有明显数字特征的数据和有固定统一格式的大事记等不同类型的数据项设计了3套模板,取得较好的匹配和抽取效果.

图书馆、文化馆、年报、数据抽取、公共文化

39

2021-03-08(万方平台首次上网日期,不代表论文的发表时间)

共9页

52-60

相关文献
评论
暂无封面信息
查看本期封面目录

图书馆杂志

1000-4254

31-1108/G2

39

2020,39(12)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn