10.11959/j.issn.1000-0801.2017001
大数据中基于时态特征和混合式搜索的博客筛选挖掘
针对现存很多博客筛选挖掘方法的相关性程度比较松散以及信息检索方法的缺陷,提出一种基于时态特征和混合式搜索的方法.考虑到用户评论是组合证据的重要来源以及时间因素的影响,提出的方法将博客文章的平均评论数量、消息来源的BM25的相关性分数、最久博客文章的BM25分数和最新相关博文和最旧博文的时间范围作为时态特征集.另外,考虑到线性搜索的局部性优势以及差分进化搜索的全局优势,将两种信息搜索方式组合.实验使用BlogS06数据集,由博客主页、XML源文件和其博客入口页面组成,用于TREC 2007和TREC 2008的博客筛选挖掘实验.实验结果表明,提出的方法在运行时间和有效性方面获得了满意的效果.
博客筛选挖掘、时态特征、线性搜索、差分进化、大数据、BM25
33
TP391(计算技术、计算机技术)
浙江省2016年教育技术研究规划课题支持项目No.JB139Educational Technology Research Prgram of Zhejiang Province in 2016JB139
2018-07-02(万方平台首次上网日期,不代表论文的发表时间)
共8页
77-84