10.11925/infotech.2096-3467.2021.0023
类目式文档语义特征AND-OR逻辑表达式生成方法
[目的]将类目式文档中的类目单元表示成语义特征AND-OR逻辑表达式,使类目文档实现语义化表示,为类目语义匹配、语义检索等应用提供语义化数据.[方法]以类目单元描述/注释文本AND-OR逻辑语义标注数据为基础,利用UniLM模型,通过学习词性特征、显式AND-OR逻辑文本描述特征以及改进Beam Search搜索排序策略等方法构建Seq2Seq生成模型,解决类目单元内语义特征AND-OR逻辑表达式的生成问题.通过融合上下文层次语义,解决类目单元外部语义的扩展问题.[结果]在人工标注的国际专利分类表数据上展开实验,结果评价得分为87.2分,比基准模型(BiLSTM-Attention)高11.5分.[局限]适用于国际专利分类表中的类目数据特点,其泛化效果有待在其他领域数据中进一步验证.[结论]所提类目单元语义表示方法在国际专利分类表中有较好表现,能够有效生成融合类目单元内部语义特征及其上下文层次语义特征的AND-OR逻辑表达式.
语义表示、语义解析、AND-OR逻辑、类目式文档
5
TP391(计算技术、计算机技术)
2021-07-26(万方平台首次上网日期,不代表论文的发表时间)
共9页
95-103