基于LCA分块算法的大学科研人员信息抽取

引用

摘要：

现有的半结构化网页信息抽取方法主要假设有效数据间具有较强结构相似性，将网页分割为具有类似特征的数据记录与数据区域然后进行抽取。但是存有大学科研人员信息的网页大多是人工编写填入内容，结构特征并不严谨。针对这类网页的弱结构性，提出了一种基于最近公共祖先（lowest common ancestor， LCA）分块算法的人员信息抽取方法，将LCA和语义相关度强弱的联系引入网页分块中，并提出了基本语义块与有效语义块的概念。在将网页转换成文档对象模型（document object model，DOM）树并进行预处理后，首先通过向上寻找LCA节点的方法将页面划分为基本语义块，接着结合人员信息的特征将基本语义块合并为存有完整人员信息的有效语义块，最后根据有效语义块的对齐获取当前页面所有关系映射的人员信息。实验结果表明，该方法在大量真实的大学人员网页的分块与抽取中，与MDR（mining data records）算法相比仍能保持较高的准确率与召回率。

关键词：信息抽取、最近公共祖先(LCA)、基本语义块、有效语义块、关系映射

所属期刊栏目：10

分类号：TP391(计算技术、计算机技术)

资助基金：The National Natural Science Foundation of China under Grant No.61202100;the Open Foundation of State Key Laboratory of Software Engineering under Grant No. SKLSE2012-09-20

在线出版日期：2016-06-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：761-772

英文信息展示

期刊专题