10.3969/j.issn.1009-3044.2010.23.018
基于网页的语料库自动生成
网页文本信息的抽取是网络信息搜索的重要组成部分,通过网页文本抽取生成完备精简的语料库对网页信息的分析起着至关重要的作用.目前网页解析的技术有很多,常用的技术有基于正则表达式的静态网页文本抽取,基于HTML文件流分析的静态文本解析,基于DOM树的动态网页分析和基于SAX的动态网页分析.
网页、抽取、语料库
6
TP393(计算技术、计算机技术)
2010-10-25(万方平台首次上网日期,不代表论文的发表时间)
共2页
6438-6439