基于统计的中文分词算法研究

引用

摘要：

最近几年大数据、人工智能的迅猛发展,对数据的采集、加工、挖掘也得到了长足的发展,信息的价值逐渐凸显,智能推荐、语音识别等高价值的信息处理越来越多的改变生活.如何从互联网上中文网页内容提取出有效的识别、提取出有价值的信息是当今信息研究的重要课程.中文分词作为中文文本处理的重要组成部分,本文作者在对当前分词的基本问题,以及主要分词方法的优缺点进行思考和分析的基础上,重点分析了基于统计的分词方法,分析了基于统计的分词器的设计理念与算法思想.文中涉及中文分词的难点分析,隐含马尔科夫模型的处理,维特比路径优化算法.

关键词：中文分词、隐马尔科夫模型、路径优化问题、维特比算法

所属期刊栏目：15

分类号：TP311(计算技术、计算机技术)

在线出版日期：2019-04-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：149-150,153

期刊专题