10.3969/j.issn.1000-5900.2009.04.025
一种改进逐字二分中文分词词典设计
在研究了多种分词词典机制的基础上,提出一种改进的词典机制.在传统的首字哈希表中增加拼音首字母和次字哈希标志项,在首字哈希表中查询次字的拼音首字母,根据双字以上词的数量决定是否按次字拼音首字母散列到次字首字母哈希表中,以此决定次字的查询方式.在兼顾空间复杂度的同时,缩小次字查询范围能较大幅度地提升高频词的次字的整体查询效率.第3字及其后的字串的匹配仍然采用目前成熟的词典机制.通过实验测试,该机制在增加少量的存储空间情况下,时间效率可提升26%.
中文分词、次字、哈希、最大匹配、逐字二分
31
TP391.1(计算技术、计算机技术)
西华大学人才培养基金项目R0723314
2010-04-09(万方平台首次上网日期,不代表论文的发表时间)
共5页
124-128