蕴含地理事件微博客消息的自动识别方法

引用

摘要：

微博客文本蕴含类型丰富的地理事件信息，能够弥补传统定点监测手段的不足，提高事件应急响应质量。然而，由于大规模标注语料的普遍匮乏，无法利用监督学习过程识别蕴含地理事件信息的微博客文本。为此，本文提出一种蕴含地理事件微博客消息的自动识别方法，通过快速获取的语料资源增强识别效果。该方法利用主题模型具有提取文档中主题集合的优势，通过主题过滤候选语料文本，实现地理事件语料的自动提取。同时，将分布式表达词向量模型引入事件相关性计算过程，借助词向量隐含的语义信息丰富微博客短文本的上下文内容，进一步增强事件消息的识别效果。通过以新浪微博为数据源开展的实验分析表明，本文提出的蕴含地理事件信息微博客消息识别方法，识别来自事件微博话题的消息文本的F-1值可达到71.41%，比经典的基于SVM模型的监督学习方法提高了10.79%。在模拟真实微博环境的500万微博客数据集上的识别准确率达到60%。

关键词：微博客、地理事件、事件文本识别、主题模型、词向量

所属期刊栏目：18

分类号：TP3;P22

资助基金：国家“863”计划课题2013AA120305；国家自然科学基金项目41401460。

在线出版日期：2016-07-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：886-893

英文信息展示

期刊专题