10.3969/j.issn.1003-3254.2012.07.003
WEB文献资料采集系统
为了能够充分利用WEB上丰富的文献资源,设计了一个专业的WEB文献资料采集系统WLES.该系统集成了网页抓取和网页清洗两方面技术,并且引入机器学习方法到网页清洗中,通过机器对训练语料的学习得到一个清洗模型,然后用该模型来实施网页清洗.实验证明该系统在网页抓取和网页清洗方面都具有优良的性能,能够满足使用者的文献采集需求.
文献资料采集、机器学习、网页清洗、清洗模型
21
TH7;TP3
国家社科基金重大项目10&ZD117;江苏高校重点研究基地重大项目2010JDXM023;江苏省教育厅高校哲学社会科学基金2011SJB740010;江苏省高校自然科学研究项目11KJD520009
2012-10-22(万方平台首次上网日期,不代表论文的发表时间)
共5页
9-12,37