HTML页面中的文献记录分析算法

引用

摘要：

为了使出版机构能够及时从大量网页中发现所需文献,需要设计能够从超文本标记语言页面中自动提取文献信息的算法.为此,设计了基于条件随机场的文献记录分析算法:首先,设计了文档对象树的分割算法,通过分割标记将页面数据分成独立的部分,这些数据块由标签和文本序列构成;随后,将该序列作为条件随机场模型的特征向量,建立文献信息标记模型;最后,设计启发式算法,从标记模型中提取文献信息数据,并通过实验验证了其有效性.

关键词：数字出版、条件随机场、文献记录分析

所属期刊栏目：40

分类号：TP393(计算技术、计算机技术)

资助基金：北京市教委科技创新服务能力建设项目PXM2016_014223_000025;北京印刷学院校级重点项目ea201507;北京印刷学院教师队伍建设—博士启动金项目27170116005/062;北京印刷学院科研项目—出版物数据资产评估实验室建设项目20190116005/006

在线出版日期：2018-01-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：85-88

英文信息展示

期刊专题