10.3969/j.issn.2095-2163.2015.02.010
一种实体描述短文本相似度计算方法
中文实体描述短文本具有词语稀疏、语义离散、用词随意等特点。本文分析《知网》义原网络和词语相似度的关系,提出了短文本间语义相似度部分和短文本分类部分相结合的实体描述短文本间相似度计算方法。语义相似度部分分析《知网》义原网络和词语间相似度的关系,在计算词语间相似度和短文本间相似度的过程中弱化了浅层《知网》义原影响并均衡了义原权重,使义原相似度计算结果更加合理。短文本分类部分将短文本分解为义原向量,根据特定领域短文本的义原分布情况进行短文本分类。两部分结合得到实体描述短文本间相似度。本文方法的有效性在百度知识图谱数据分析竞赛任务1的测试结果中得到了证明。
实体描述短文本、文本分类、文本相似度、《知网》
TP391(计算技术、计算机技术)
国家自然科学基金60975077。
2015-05-27(万方平台首次上网日期,不代表论文的发表时间)
共4页
34-37