10.3969/j.issn.1000-3428.2006.05.017
HTML文件的文本信息预处理技术
介绍了一种常用的文件类型HTML文件的文本信息预处理技术.该方法能够解析HTML文件的组成结构,并从中提取出主体文本以供处理.测试表明该方法能有效地得到大部分HTML网页的主体部分.文中对HTML文件的解析不仅可以用于提取出HTML文件的主体文本,也可以用于得到HTML文件中其他的元素的内容,具有推广应用价值.
HTML、文本信息、预处理
32
TP391(计算技术、计算机技术)
国家科技攻关项目2002AA119050
2006-04-20(万方平台首次上网日期,不代表论文的发表时间)
共4页
46-48,67