10.3321/j.issn:1004-132x.2007.19.014
基于正则表达式的专利信息提取方法研究
针对图像格式专利文献难以进行全文检索和深入分析利用的问题,根据专利文献的结构特点,通过集成光学字符识别工具和建立具有容错性的专利信息提取正则表达式,提出了专利文献的数字化和信息提取方法.开发了相应的软件系统,实现了专利信息的批量提取,为后续高效率地对专利文献进行自动分析和知识挖掘提供了数据基础.
专利分析、信息提取、正则表达式、设计知识
18
TP391(计算技术、计算机技术)
国家自然科学基金50675197;50335040;浙江省科技攻关项目2004C11015
2007-12-03(万方平台首次上网日期,不代表论文的发表时间)
共4页
2326-2329