10.3969/j.issn.1007-757X.2006.10.011
一种中文分词词典新机制——四字哈希机制
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率.本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率.
中文信息处理、自动分词、分词词典、四字哈希
22
TP3(计算技术、计算机技术)
2006-11-28(万方平台首次上网日期,不代表论文的发表时间)
共3页
35-36,55