10.3969/j.issn.1674-3636.2022.02.002
文本化地质资料Markdown格式规范化方法
随着大数据与信息化的发展,海量电子文档涌现.不同格式的文档若采用不同方式解析,会对文档的快速集成与内容理解造成影响.明码文本格式是大数据环境下的首选格式.Markdown格式能记录一定的文档结构特征,利于处理以报告为主的地质资料等行业文本数据,但受文本化技术、地质资料编辑标准、人工等原因的影响,极易出现文档格式不规范问题.从文档格式特征标记的角度出发,对Markdown格式的地质资料的封面、目录、章节、表格、地质剖面介绍等文档的格式特征及格式问题进行归纳总结;定义由正则表达式、优先级、关联条件等构成的文档格式规范特征描述语言;遵循文档格式规范特征描述语言,对不同文档格式规范特征进行计算机存储与解析,生成文本化地质资料文档格式规范.实验表明,该方法对Markdown格式的地质资料能起到很好的规范作用.
地质资料、Markdown、格式规范化、规则描述、规则解析
46
P628+.4(地质、矿产普查与勘探)
国家自然科学基金42172330
2022-09-05(万方平台首次上网日期,不代表论文的发表时间)
共16页
120-135