10.3969/j.issn.1009-3044.2006.05.057
基于频繁序列的新词挖掘算法
生物医学领域信息量的飞速增长,极大地促进了人们的交流和研究,同时也使人们在海量的信息面前无所适从;这就提出了对信息进行分类筛选的需求.词库对于文本分类的结果有着至关重要的作用,只有能实时更新新词的词库才能适应使用的需要.该文章提出并实现一种基于频繁序列的新词挖掘算法,能够正确提取出中文文本中的新词,从而及时更新维护词库,使文本分类更为准确.
分词、文本分类、频繁序列
TP391(计算技术、计算机技术)
国家科技攻关项目2002AA231071;江苏省自然科学基金BK2002057
2006-06-15(万方平台首次上网日期,不代表论文的发表时间)
共2页
98-99