基于字频差算法与左切分词库构建的专利文献组件名称识别方法
机械专利文献蕴含着海量以组件名称为信息单元的领域知识信息,组件名称用词灵活多变,具有独特、复杂和生僻等特点,难以被计算机准确识别,成为专利知识挖掘的一大阻碍.为了提出组件名称的高效识别方法,剖析并提炼专利文本语句中的组件名称构词特征;从组件名称相关的外部用词入手,通过标识附图标记,识别其左侧的名称字符,自动从文本中检索候选名称,并构建组件候选名称集合;提出了字频差算法,过滤候选名称集合的冗余字符;提出了动态构建左切分词库算法,进一步剔除未能被过滤的冗余字符;通过交叉实验测试和分析识别过程中字频差先验阈值、词频阈值和字频差阈值的选取对识别效果的影响,形成一种面向机械领域中文专利的组件名称识别三段式综合方法.最后通过对实验结果的对比分析,验证了该方法的有效性与高效性.
专利文本、冗余字符、附图标记、字频差、左切分词
50
TH122;TP182
国家科技部创新方法专项资助项目;湖南省自然科学基金项目
2023-07-18(万方平台首次上网日期,不代表论文的发表时间)
共8页
229-236