10.3969/j.issn.1000-3428.2006.16.019
网页信息抽取及建库系统C#实现
围绕网页内容解析、数据清洗、语料库信息字段定义和XML数据存储4个方面,该文介绍了网页信息自动抽取及建库的原理,并使用C#语言在微软.NET Framework下完成了一个网页信息自动抽取及建库系统,该系统具有智能性和个性化的特点,适合构建文本分类、话题识别和信息检索的大型训练(测试)语料集.
内容解析、信息抽取、语料库、XML
32
TP311.12(计算技术、计算机技术)
国家语言资源监测项目L2004-01-01-04
2006-09-13(万方平台首次上网日期,不代表论文的发表时间)
共3页
49-51