DOI：10.3969/j.issn.1003-0077.2009.06.003

汉语形容词的自动词义区分研究

引用

摘要：

词义知识获取是词义知识库建设、词义消歧等任务的基础和起点,目前该工作基本依赖人类专家的智慧和洞察力,在大规模文本处理上缺乏意义计算的客观性和一致性.该文以汉语的中高频形容词为样本,深入挖掘词义特征并采用有参数初始化过程的EM迭代算法,实现了从真实文本中自动发现并区分词语词义的过程.该词义区分算法选取易获取的词形特征、基于大规模语料的搭配特征、基于网络语料的属性-宿主关系特征,替代以往难以获取的句法结构特征,并进一步利用HowNet优化了词形特征的选择.该工作可以应用于信息检索等领域,能够对现有词典起到修改和补充的作用,该思路亦可扩展到其他汉语词类上去.

关键词：计算机应用、中文信息处理、知识获取、词义区分、特征选择、EM算法

所属期刊栏目：23

分类号：TP391(计算技术、计算机技术)

资助基金：国家973课题资助项目2004CB318102;国家自然科学基金资助项目60775031;国家社科基金资助项目08BYY060;全国优秀博士学位论文作者专项资助项目200514

在线出版日期：2010-01-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：19-25

英文信息展示

期刊专题