10.3772/j.issn.1000-0135.2022.01.006
美国商业管制清单与专利自动映射方法及实证研究
为了高效分析中美在美国商业管制清单(Commerce Control List,CCL)记录的管制技术上的差距,针对CCL清单数据非结构化程度高的问题,提出了一种管制清单数据和专利数据的自动映射方法,实现了从专利视角自动揭示中美技术差距.基于文本挖掘的思想,研究制定了管制清单文本规范化流程,提出了基于TF-IDF(term fre-quency-inverse document frequency)和Word2Vec的管制清单数据与专利数据自动映射方法和效果评价指标.以2019年美国商业管制清单和2018年全球PCT(Patent Cooperation Treaty)专利申请数据为例进行实证研究,通过评估模型效果,最终发现当文本相似度阈值为0.87时,Word2Vec模型的自动映射结果最优,并以此开展技术差距分析.本研究提出的方法能够自动化映射管制清单数据和专利数据并开展情报分析,分析结果具有较高的可解释性,是提升情报分析时效性的有力手段,具有较高的实际应用价值.
商业管制清单、专利数据、文本相似、Word2Vec、技术差距
41
中国科学院青年人才项目G180161001
2022-02-16(万方平台首次上网日期,不代表论文的发表时间)
共12页
50-61