10.3969/j.issn.1006-2475.2016.03.006
基于新浪微博的冰雹实况信息挖掘
为更便捷快速地从新浪微博数据中得到准确的冰雹实况信息,设计并实现一个3层次识别系统,即通过网络爬虫技术的含"冰雹"微博的一次识别、基于分类器的降雹事件的二次识别和基于规则的冰雹实况要素的三次识别.为提高降雹事件的识别性能,新增一个用于提取样本特征的评估函数,提出使用多评估函数共同确定特征向量的方法,给出基于3分类器的组合分类方案.测试结果表明,该方法能够将隐含在新浪微博中的降雹事件的89.5%提取出来,误识信息低于13.4%;对冰雹事件中冰雹实况单要素的提取率超过96.0%,误识信息低于8.6%.
微博、冰雹实况、特征提取、文本分类、文本要素识别、网络爬虫
TP391(计算技术、计算机技术)
天津市自然科学基金资助项目14JCYBJC21800
2016-05-09(万方平台首次上网日期,不代表论文的发表时间)
共7页
24-29,34