10.3969/j.issn.1005-8214.2015.02.029
基于语料库的蒙古人名知识库建设与实践
为提取较为完备的蒙古人名特征,以内蒙古大学语料库及网页人名句为基础,采用量化分析的方法,建立普通人名知识库及兼类人名知识库,将知识库归并为14个特征,进行特征选择实验,在直接保留“汉语姓氏映射表”及“汉语人名映射表”等特征集后,鉴于对正确率和召回率的贡献,去除了地名词典、地名后缀词典、机构名后缀词典等3个特征集,保留了9个作为最大熵模型的特征集,从实验结果看,予以保留的特征影响并不相同。
语料库、人名、蒙古人名、最大熵、特征选择、实验
TP391.1;G250.74(计算技术、计算机技术)
国家自然科学基金重点项目“跨语言社会舆情分析基础理论与关键技术”项目编号61331013的系列成果之一。
2015-04-07(万方平台首次上网日期,不代表论文的发表时间)
共4页
109-112