DOI：10.3772/j.issn.1000-0135.2013.08.008

基于自然标注的网页信息抽取研究

引用

摘要：

随着Web网页数量的爆炸式增长和网页噪声不断增多,网上获取重要信息变得越来越困难.本文从一个新的角度,提出了一种基于自然标注的网页信息抽取方法.依据这种方法,首先对网页进行聚类,提取具有相似结构的网页并进行相同的标注,然后采用SVM对抽取项进行训练,最后提取到需要抽取的数据.文章的主要贡献在于对网页中的自然标注进行分析和发现,给出了九大类自然标注的例子,并结合聚类和支持向量机,给出了训练方法.从实验结果上看,本方法优于其他方法.

关键词：自然标注、信息抽取、聚类、支持向量机、语义

所属期刊栏目：32

分类号：TP3;U45

资助基金：广东省哲学社会科学基金项目"基于网络日志的用户行为分析与网站信息组织优化研究"GD11CTS02

在线出版日期：2013-09-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：853-859

英文信息展示

期刊专题