10.3969/j.issn.2095-4107.2008.06.028
互联网络科技信息自动抽取系统的开发
为自动从网页中抽取所需科技信息,根据两类知识:一类描绘网页本身的特点及识别各网页信息对象的确定模式知识;另一类描述网页信息记录块及各网页信息对象的非确定模式知识,提出一种基于知识库的信息抽取方法,给出初步实现的可以运行的原型系统.该系统依据前一类知识,经过动态分析,获得后一类知识,然后利用这2类知识自动完成从信息内容类似,但其表现形式各异的网页中抽取所需的科技信息.应用结果表明:实验网页论文信息被成功提取.
Internet、信息抽取、半结构化数据、抽取器
32
TP391(计算技术、计算机技术)
大庆市科技攻关项目SGG2007038
2009-03-11(万方平台首次上网日期,不代表论文的发表时间)
共3页
103-105