10.3969/j.issn.1000-3428.2007.06.028
WWW论坛中的动态网页采集
网络论坛已经成为互联网信息发布的主要形式,对论坛信息的检索和挖掘都涉及到论坛信息的获取,然而传统的针对静态网页的广度优先采集工具,不能有效地获取论坛信息.该文利用论坛的结构特点,提出了一种"版面-主题关联判断"(BTCJ)算法,采用一种基于版面扩展的采集策略.实验证明,该方法在论坛采集准确率和覆盖率方面显著优于广度优先策略;具有良好的泛化能力,应用在实践中已覆盖各种类型的论坛12 000余个.
互联网论坛、信息采集、动态网页
33
TP311(计算技术、计算机技术)
国家重点基础研究发展计划973计划2004CB318109
2007-04-26(万方平台首次上网日期,不代表论文的发表时间)
共3页
80-82