基于用户HTTP行为分析的网站分类研究
为了降低网站分类处理的计算量和使分类结果能够反映用户的行为规律,将URL前缀相同的网页合并为一个处理单位,并从用户的HTTP访问行为中提取用于网站分类的特征,最后针对省级区域性网络数据规模大的特点,采用可伸缩性决策树算法,从河南省教育科研计算机网用户访问的网站中提取出新闻类网站、资源共享类网站和通讯类网站.该方法与传统的网站分类方法相比,不需要逐个分析网页内容,适合处理大规模数据.
用户行为分析、HTTP数据流、网站分类、决策树、大规模网络
31
TP393(计算技术、计算机技术)
国家863高技术研究发展计划基金项目2008AA01A315
2010-04-13(万方平台首次上网日期,不代表论文的发表时间)
共5页
491-494,528