DOI：10.3969/j.issn.1001-6600.2008.01.033

Dynamic Hash TRIE算法的研究与分析

引用

摘要：

分词是中文信息处理的基础,词典查询又是分词的基础.另外,搜索引擎需要对访问过的URL进行唯一性检测.针对汉语词典查询和唯一性检测这两个问题,提出Dynamic Hash TRIE词典算法,有效地压缩了节点,没有单链树枝.通过Java和C++编程实验,对比了多个同类算法,证明该算法对于中文词典具有较高的查询性能,灵活的可拓展性.另外还提出了一个词库测试的标准NormTest,可以排除机器性能的干扰来对比各种算法.

关键词：机器检索、唯一性、程序设计、自然语言处理

所属期刊栏目：26

分类号：G354.4(情报学、情报工作)

资助基金：国家高技术研究发展计划863计划2006AA01Z128;国家重点基础研究发展计划973计划2007CB311004;国家自然科学基金60435010;60675010;北京市自然科学基金4052025

在线出版日期：2008-06-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：134-138

英文信息展示

期刊专题