10.16451/j.cnki.issn1003-6059.201904010
基于字符级截断式循环神经网络的人名国籍识别
人名是反映用户国籍的关键信息,不同国籍的人名在结构和组成成分方面存在差异性和关联性.目前,基于人名的国籍识别研究工作大部分将人名切分成多个独立的字符单元,忽略字符间微妙的搭配和序列关系.针对上述问题,文中提出基于字符级截断式循环神经网络的人名国籍识别模型,将人名通过滑动窗口的方式截断成多个子序列,利用长短期记忆单元模型学习不同子序列内部的字符组合关系,通过平均池化操作聚合所有子序列信息,获取最终的人名向量表示.最后根据该人名向量实现用户的国籍识别.截断式的子序列有利于模型更关注人名内部的细微差异.在Olympic运动员和Aminer学者数据集上的实验表明,文中模型性能较优.
国籍识别、用户画像、字符级表示模型、循环神经网络
32
TP391(计算技术、计算机技术)
国家自然科学基金项目61572145;湖南省教育科学"十三五"规划课题XJK18CGD044
2019-05-29(万方平台首次上网日期,不代表论文的发表时间)
共7页
369-375