10.3321/j.issn:1002-8331.2006.31.034
基于链接分块的相关链接提取方法
每个网页都包含了大量的超链接,其中既包含了相关链接,也包含了大量噪声链接.提出了一种基于链接分块的相关链接提取方法.首先,将网页按照HTML语言中《table》标签将网页分成许多的块,从块中提取链接,形成若干链接块;其次,根据相关链接的成块出现,相关链接文字与其所在网页标题含相同词等特征,应用规则与统计相结合的方法从所有链接块中提取相关链接块.相关链接提取方法测试结果,精确率在85%以上,召回率在70%左右,表明该方法很有效.
网页分块、链接块、相关链接提取
42
TP391(计算技术、计算机技术)
富士通研发中心有限公司资助项目
2006-11-29(万方平台首次上网日期,不代表论文的发表时间)
共4页
110-113