规则与统计相结合的中文新词识别研究
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/i.issn.1671-3079.2014.06.022

规则与统计相结合的中文新词识别研究

引用
针对目前分词方法无法识别网络中不断出现的普通新词,设计了一种新的基于规则与统计相结合的分词方法.针对新词不同的构词模式特点,利用语言学的知识把新词识别问题分类细化,将单字串模式的新词和后缀串模式的新词作为本文的主要识别对象.对于单字串模式的候选新词,在使用内部词概率模型的基础上,通过分析候选新词的内部紧密结合度以及上下文环境依赖程度等特征信息,采用平均互信息和左右邻接信息熵相结合的方法进行识别;对于后缀模式的候选新词,通过大规模语料训练得到的噪声尾词典进行噪声串的过滤得到新词.

新词识别、左右信息熵、内部词概率、平均互信息

26

TP393.08(计算技术、计算机技术)

山东省高校科技计划项目J12LN53

2015-01-26(万方平台首次上网日期,不代表论文的发表时间)

共7页

124-130

相关文献
评论
暂无封面信息
查看本期封面目录

嘉兴学院学报

1008-6781

33-1273/Z

26

2014,26(6)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn