10.3969/j.issn.1002-137X.2008.07.041
一种改进的基于关系的信息检索技术
有研究工作表明现有的基于关系的信息检索技术(RIR)优于基于项(term)或基于语义(concept)的IR技术,但仍存在显而易见的缺陷,即不能明确关系本身,只能表达概念A,B是存在关系的概念对.本文提出一种改进的基于关系的IR技术-IRIR (Improved Relation-based Information Retrieval),就是要明确关系的取值和属性,整合概念对和关系的信息为三元组表达式(triple),通过以下匹配方法获取未知信息.对于文本中出现的知识表示为R(relation)[First Concept,Second Concept],对于疑问代词(如what)开头的查询表达为R(relation)[First Concept,Unknown],对于疑问副词(如how)开头的查询表达为R(Unknown)[First Concept,Second Concept],当文本与查询的三元组表达式中已知部分匹配一致时,则得到查询未知部分的一个取值.由此,既可以实现类似QA(query answer)功能,又可以完成精确信息检索.基于Drexel大学DM & Bioinformatics Lab开发的生物医学文献搜索引擎(2004版,简称为RIRS),我们开发了一个能实现IRIR技术和功能的实验IR引擎-IRIRS (Improved Relation-Based IR System),该系统使用UMLS和WordNet两大权威本体库分别确定概念和关系,在博士入学考试英语阅读理解测试集上的实验结果令人满意,IRIRS将文字段级别的检索精确度MA PP(Mean average passage precision)从RIRS的64.44 %提高到74.28%.这表明,在IR中应用改进的基于关系的信息检索技术是非常具有探索价值的.
信息检索、关系抽取、查询分析、三元组结构
35
TP3;G25
国家自然科学基金项目60573057,60473057 ,90604007
2008-10-29(万方平台首次上网日期,不代表论文的发表时间)
共6页
145-150