10.3969/j.issn.1001-7119.2013.10.057
基于互联网1至5元文法语料库的多词表达自动提取
多词表达是自然语言中的常见现象,其自动提取对很多自然语言处理任务有着举足轻重的作用。本研究以Google公司发布的基于公共网页的1至5元文法语料库作为词频统计的依据,同时结合自动词性标注的信息,对英国国家语料库的书面语材料部分进行多词表达的自动提取。研究结果表明,该方法能够充分利用Google语料库的精确词频信息,从而提高了多词表达抽取的准确率,并且能够较好地缓解数据稀疏现象带来问题。
多词表达、自然语言处理、数据稀疏
TP391.1(计算技术、计算机技术)
中央高校基本科研业务费专项资金资助2012HGXJ0109;2012HGXJ0110。
2013-11-13(万方平台首次上网日期,不代表论文的发表时间)
共3页
171-173