10.3969/j.issn.1673-629X.2018.06.033
基于正则抽取的竹种数据结构化方法研究
研究旨在通过基于规则的信息抽取技术解决竹类种质资源(简称竹种)数据的自动提取和结构化存储问题,为快速构建竹种数据库提出一种基于正则抽取模型的竹种数据结构化方法.该方法以竹种数据库表结构为抽取模板,以数据表属性名称为规则触发词,利用正则表达式构建抽取规则,构建正则抽取模型.以中国植物志在线版为实验对象,通过网页解析和字段抽取两步实现了竹种数据的自动抽取与结构化,实验抽取竹种信息五百多条,取数据表前八个字段进行抽样统计分析,抽取竹种有效字段信息准确率高达89%以上.实验结果表明,基于正则抽取的竹种数据结构化方法是可行有效的,并采用Java语言开发了竹种信息抽取系统,实现了该方法.
信息抽取、正则表达式、竹种数据、数据结构化
28
TP391(计算技术、计算机技术)
"十二五"农村领域国家科技计划课题2015BAD04B03
2018-07-04(万方平台首次上网日期,不代表论文的发表时间)
共5页
147-150,155