10.3772/j.issn.1000-0135.2017.02.005
基于全球整合新闻数据库的开源情报关联与可视化分析
GDELT是一个实时、开源、全球性的社会事件新闻数据库,它收录全世界从1979年至今的网络、纸质新闻报道中抽取的事件.本文设计并实现了一个GDELT数据库采集器,实时采集GDELT的元数据,并将其存储在HDFS分布式文件系统中;提出了一种基于哈希的方法在Spark中对GDELT的三个主要数据表进行快速的连接操作,得到GDELT联合数据集,以便充分挖掘每个事件的详细信息;最后,以韩国地区的GDELT联合数据集为例进行了时空可视化分析,如事件热度的区域时间分布、关注媒体分布、抽取结果的置信度分布等.为情报科技工作者及相关人员提供了一个新的角度和解决方案.
全球整合新闻数据库、可视化分析、关联分析
36
TP3;F8
2017-05-04(万方平台首次上网日期,不代表论文的发表时间)
共7页
152-158