DOI:10.11772/j.issn.1001-9081.2016.03.833LaTeX数学表达式解析与索引方法下载全文在线阅读引用分享分享到微信朋友圈打开微信,点击底部的“发现”,使用 “扫一扫” 即可将网页分享到我的朋友圈收藏摘要:针对数学表达式复杂二维结构特性所导致的普通文本检索技术难以对其进行检索的问题,提出了一种面向数学检索的LaTeX数学表达式解析与索引方法.在充分考虑公式特点的基础上,通过对LaTeX构成特点的分析和归纳,设计了LaTeX数学表达式的解析和检索特征提取算法;以此为基础,构建了一种适应数学表达式特性的双层索引结构,利用所提取数学表达式各层次运算数和运算符信息,分别以Treap数据结构和倒排索引结构构成数学表达式索引,为实现进一步的数学表达式检索匹配打下基础.在浏览器/服务器模式下采用6234条数学教材中的公式作为数据集进行实验,在解析获得的124960个基线层数最高为11层的表达式节点上,建立索引平均耗时为33.8317 s.实验结果表明所提出的LaTeX表达式解析算法和索引结构能够适应数学表达式的特点,有助于实现具有较高效率和准确性的数学表达式检索.关键词:数学表达式、LaTeX、公式解析、公式索引、公式基线层次、Treap所属期刊栏目:36分类号:TP391(计算技术、计算机技术)资助基金:国家自然科学基金资助项目61375075;河北省自然科学基金资助项目F2012201020,F2013201134.This work is partially supported by the National Natural Science Foundation of China61375075;the Natural Science Foundation of Hebei ProvinceF2012201020,F2013201134在线出版日期:2016-06-13(万方平台首次上网日期,不代表论文的发表时间)页数:共5页页码:833-836,842 英文信息展示收起英文信息