10.3969/j.issn.1003-3254.2011.10.011
基于本体语义树的主题空间向量模型
在传统检索模型的基础上,结合本体的概念,提出一种基于本体语义树的主题空间向量模型,该模型能够用语义概念树描述一个主题,与传统基于关键词描述主题的方法不同,它能够描述概念之间的简单语义关系.在此基础上,给出HTML页面内容与主题相关度的计算方法.在分析URL的相关度时,不仅分析链接锚文本与主题相关度,还结合了改进的PageRank算法来分析链接的相关度.只有当链接相关度达不到给定的阀值时才会去下载链接对应的页面.这样的URL相关度计算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本和链接重要度信息.最后还对那些不确定是否与主题相关的网页进行内容相关度计算,进而最终确定是否应该采集此网页.
本体、概念树、主题网络、锚文本、主题相关度
20
TP3;TP1
2012-02-21(万方平台首次上网日期,不代表论文的发表时间)
共5页
44-48