10.3969/j.issn.1001-6600.2008.01.033
Dynamic Hash TRIE算法的研究与分析
分词是中文信息处理的基础,词典查询又是分词的基础.另外,搜索引擎需要对访问过的URL进行唯一性检测.针对汉语词典查询和唯一性检测这两个问题,提出Dynamic Hash TRIE词典算法,有效地压缩了节点,没有单链树枝.通过Java和C++编程实验,对比了多个同类算法,证明该算法对于中文词典具有较高的查询性能,灵活的可拓展性.另外还提出了一个词库测试的标准NormTest,可以排除机器性能的干扰来对比各种算法.
机器检索、唯一性、程序设计、自然语言处理
26
G354.4(情报学、情报工作)
国家高技术研究发展计划863计划2006AA01Z128;国家重点基础研究发展计划973计划2007CB311004;国家自然科学基金60435010;60675010;北京市自然科学基金4052025
2008-06-02(万方平台首次上网日期,不代表论文的发表时间)
共5页
134-138