10.19678/j.issn.1000-3428.0066805
暗网网页用户身份信息聚合方法
暗网网页中用户身份标识信息的分布呈现出稀疏、不规律的特点,当前主流的信息聚合技术无法直接应用于该场景.提出一种基于共指关系抽取的用户身份信息聚合模型,该模型输入一对用户身份信息及其上下文语境,返回该信息对是否包含共指关系,并且构建相应的用户身份信息数据集用于聚合实验.为进一步提升模型的识别能力,在基线模型的基础上引入实体类别信息,提出实体类别敏感的共指关系抽取模型.针对暗网中通过某些身份类别信息无法获取足够多训练样本的问题,引入少样本学习任务,构建基于多任务的低资源条件下用户身份信息聚合模型.实验结果表明,在低资源条件下,经过优化的聚合模型F1值达到87.03%,较基线模型提升11.98个百分点.
暗网、用户身份信息、信息聚合、关系抽取、少样本学习、多任务学习
49
TP309(计算技术、计算机技术)
广东省重点研发计划2019B010137003
2023-11-16(万方平台首次上网日期,不代表论文的发表时间)
共9页
187-194,210