10.3969/j.issn.1000-0135.1999.03.007
基于词形的汉语文本切分方法
本文在分析汉语分词一般模型基础上,引入词形概率、词整合系数和词形网格等概念,提出了一个基于词形的汉语文本切分模型,并实现了一个反向动态规划和正向栈解码相结合的二次扫描的汉语文本切分算法.由于引入了词形概率、词整合系数,本模型不仅反映了词形统计构词规律,而且在一定程度上体现了长词优先的切分原则.初步测试表明,本方法的切分准确率和消歧率分别可达99.6%和93.44%.
汉语分词、词形概率、整合系数、词形网格
18
G2(信息与知识传播)
国家高技术研究发展计划863计划863-306-03-02-1
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
235-240