10.13956/j.ss.1001-8409.2015.04.21
在线评论信息挖掘分析的数据来源可靠性研究
通过将研究分解成三个子任务,对网络数据从运用PageRank与TrustRank剔除作弊网页开始;借助结合网页间主题相关度、时间差以及在线评论比例的权重的TC-PageRank算法,提炼与产品主题高度相关并包含大量在线评论数据的网页集;最后考虑了网页与产品主题的相似度以及网页的链接增幅对网页权威性的影响,运用改进的HITS算法,确定在线评论分析数据来源的权威网页集;而基于MapReduce的矩阵分块运算,降低了算法时空的复杂度.并通过仿真实验验证了该方法的可行性与准确性.
在线评论、PageRank、主题漂移、链接增幅
29
F713.55(国内贸易经济)
国家自然科学基金项目71302087;江苏省普通高校研究生科研创新计划项目KYZZ_0287
2015-06-04(万方平台首次上网日期,不代表论文的发表时间)
共6页
94-99