10.3969/j.issn.1000-3428.2008.24.020
基于DOM修剪的藏文Web信息提取
随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站.该文根据藏文"音节点"的特征识别藏文网页并进行抓取.在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度.通过语义修剪算法提取藏文主题信息.经测试证实,该算法在藏文网页识别和藏文主题信息提取中具有较好的适应性.
音节点、DOM树、藏文、Web信息提取
34
TP393(计算技术、计算机技术)
国家自然科学基金资助项目60763010/F0206
2009-02-18(万方平台首次上网日期,不代表论文的发表时间)
共3页
58-60