基于正则表达式的地学科学数据名称提取方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.12082/dqxxkx.2023.220945

基于正则表达式的地学科学数据名称提取方法

引用
地学科学数据是地学科技文献重要的支撑材料,大量地学科技文献中包含着研究数据信息,而数据名称一般体现着数据的基本内容,是其中的核心信息.从地学科技文献中自动提取研究数据名称,对于促进优质地学数据共享、复现文献实验与结果以及实现科学数据与科技文献之间的关联具有重大意义,可在一定程度上解决当前地学文献中数据信息利用不充分的问题.本研究通过大量阅读地学文献,分析地学科技文献中描述数据来源信息段落的行文、结构特点以及数据名称的表述特征,在总结地学数据名称描述规律的基础上,提出了从地学科技文献中自动抽取地学数据名称的方法.该方法以数据类别特征词为规则触发词,利用正则表达式编写抽取规则,构建正则抽取规则库,从而完成对地学文献中数据名称信息的抽取.最后使用Java语言编写地学数据名称提取程序,以地学文献文本为实验数据材料,开展地学数据名称信息提取实验.实验结果表明,该方法可以有效地提取地学科技文献中的研究数据名称信息,准确率达到62%.

地学科技文献、地学科学数据、数据名称、正则表达式、规则匹配、信息抽取

25

G253;TP393;R284.2

2023-07-20(万方平台首次上网日期,不代表论文的发表时间)

共10页

1601-1610

相关文献
评论
暂无封面信息
查看本期封面目录

地球信息科学学报

1560-8999

11-5809/P

25

2023,25(8)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn