10.3772/j.issn.1673-2286.2016.8.001
专利发明人英文重名识别判据及效度比较分析
本文针对英文专利发明人姓名的字符串匹配问题,利用USPTO发明人姓名的数据集,探索现有字符串匹配算法的适用性。对指向同一发明人不能精确匹配的姓名字符串,分别用10种常用的字符串匹配算法进行处理。比较匹配结果发现:Jaro-Winkler算法对同一发明人姓名字符串匹配效果最好,且结果稳定。通过回归分析可知,杰卡德算法对于发明人的识别效果最佳,基于q-gram的算法在发明人姓名消歧中有重要意义;在发明人消歧中,多种字符串匹配算法的组合运用效果更佳。
发明人姓名、字符串匹配、Jaro-Winkler算法、杰卡德算法
TP18(自动化基础理论)
国家科技支撑计划课题“专利信息支撑科研项目管理应用示范”编号2013BAH21B05资助。
2016-09-12(万方平台首次上网日期,不代表论文的发表时间)
共8页
2-9