10.3969/j.issn.1004-373X.2013.02.046
博客语料的新词发现方法
新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的“时空”性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间域上的变化分析对词进行过滤;最后通过词的统计信息和词性规则对候选词进行排序以提高准确率;在此基础上建立新词发现系统.
新词、词串统计、上下文分析、分词、候选词
36
TN911-34
漳州职业技术学院科研计划资助项目ZZY1107
2013-03-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
144-146,149