DOI：10.11896/j.issn.1002-137X.2014.10.058

基于大规模语料库的高频汉字串互信息分布规律分析

引用

摘要：

基于互信息的词典构建和自动分词是典型的基于统计的中文信息处理技术.通过计算大规模中文文本语料库的高频二字串、三字串、四字串的互信息发现:第一,高频词的互信息并不是很高,词和短语之间的互信息分布不存在明显界限;第二,高频无效汉字串的互信息与词和短语的互信息也没有明确界限,词、短语、无效汉字串互信息的夹杂分布,使得仅凭汉字串的互信息或频率很难高效地自动标注词、短语以及无效串.以上规律说明:单纯依赖对大规模真实文本语料库进行统计来实现高效的中文词典构建、自动分词处理等会面临极大挑战.

关键词：汉字、词、短语、语料库、互信息、频率

所属期刊栏目：41

分类号：TP391.3(计算技术、计算机技术)

资助基金：教育部人文社会科学研究项目:逻辑推理与词义匹配相融合的中文网页语义检索技术研究10YJA740120;湖北省教育厅人文社会科学研究项目:基于语义理解的中文网页检索方法研究2010b032

在线出版日期：2014-12-01（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：276-282

英文信息展示

期刊专题