10.3969/j.issn.1000-3428.2016.07.034
一种基于聚集系数的人名识别方法
在中文文本分析的许多应用领域中,人名识别是一个广泛存在且受到持续关注的基本问题.虽然目前人名识别方法较多,但大多以语料统计和语言规则为基础.为此,针对事件文本中人名具有紧密联系的特征,基于聚集系数,提出一种新的人名识别方法.利用姓氏列表获得原始文本中的可能姓氏信息,基于人名语料信息所构建的统计模型和上下文新的信息提取出候选人名,定义人际语义相似性、人名可能度等量化方法,在此基础上设计一种基于人际网络聚集系数的人名过滤方法.实验结果表明,与现有基于隐马尔可夫模型的方法相比,该方法所获得的F1值有1.2%的提升,并且不需要人工标注语料及使用语言规则.
人名识别、聚集系数、人际网络、统计模型、人际语义相似性
42
TP309(计算技术、计算机技术)
2016-09-22(万方平台首次上网日期,不代表论文的发表时间)
共6页
203-208