10.3969/j.issn.1672-1586.2015.01.014
面向网页文本的地理要素变化发现
地理要素变化发现是地理信息数据库动态更新的重要组成部分。互联网在信息传播中扮演着越来越重要的角色,网页文本中蕴含着一些现势性很强的地理要素信息,可作为地理要素变化发现的数据源。本文结合网络爬虫和朴素贝叶斯分类模型,提出并实现了一种面向网页文本的地理要素变化发现方法。首先,本文在收集分析地理要素变化新闻锚文本的基础上,构建了网络地理要素变化新闻关键词库,并基于关键词库设计了适于地理要素变化发现的网络爬虫,实现了候选网页文本的主动获取;接着为了提取地理要素变化新闻,本文训练构造了适于地理要素变化发现的朴素贝叶斯分类器,对候选网页文本进行筛选。最后通过实验对比了本文方法与现有方法在准确性和全面性上的表现。
地理要素、动态更新、变化发现、网页文本、贝叶斯分类
P2;TP3
2015-03-25(万方平台首次上网日期,不代表论文的发表时间)
共5页
52-56