基于.NET的维哈柯多语种网上数据采集系统的设计与实现
主要是为了给维吾尔语、哈萨克语及柯尔克孜语在自然语言处理、语音识别、语音合成、机器翻译、信息检索、维吾尔语智能信息监控以及维吾尔语舆情分析等研究领域提供语料作为目的。在软件的设计和实现过程中参考维吾尔语、哈萨克语和柯尔克孜语的语法规则以及语言特征,同时引入此三种语言的国际编码,除此根据该网页的特征来分析网页的结构进行判断文本而研发了从网上抓取维哈柯多语种纯文本的数据采集器。最后实现了为少数民族自然语言处理研究搭建语料库准备大规模语料。
多语种、自然语言处理、.NET、数据抓取、语言特征、语料库
TP311(计算技术、计算机技术)
乌鲁木齐职业大学校级课题“数字化校园资源整合与应用的研究”No.2014XY005;“网络安全综合管理平台研究与开发”2014XY007
2015-06-10(万方平台首次上网日期,不代表论文的发表时间)
共3页
23-25