10.3969/j.issn.2095-2163.2015.02.017
基于XPath的新闻信息抽取系统设计与实现
随着互联网技术的迅猛发展,因特网成为目前新闻信息最丰富最主要的来源。本文在分析新闻网页的基础上,分析了目前现有的信息抽取技术和XML技术,提出了一个基于XML技术的Web新闻抽取系统。本文主要是充分运用XML中的XPath技术在数据定位方面的优势,并提出一种基于DOM树的XPath生成算法,使用XSLT语言用于描述抽取规则,并使用路径表达式XPath定位待抽取的信息点。
数据挖掘、信息抽取、新闻抽取系统、XPath
TP391.3(计算技术、计算机技术)
2015-05-27(万方平台首次上网日期,不代表论文的发表时间)
共4页
58-61