10.3969/j.issn.0258-8021.2019.03.009
本体支持的生物医学领域元数据异质性与可兼容性研究
利用本体支持数据元素的表示,是提升元数据机器可理解性的重要手段.采用生物医学通用数据元素数据库caDSR中的数据,评价相关的数据元素之间的语义异质性,并利用机器学习对元数据可兼容性进行判别.首先,从caDSR中选取60对通用数据元素,涉及人口学、生活方式、既往病史和实验室测量等方面.依据ISO/IEC111179标准抽提数据元素的必要组分,利用NCIT的本体支持,就每对关联数据元素的相似度进行评价.依据数据元素内部各组分的语义相似度,利用支持向量机,对数据元素间的可兼容性做出预测,其准确度超过80%.研究结果显示,目前在caDSR数据库中,对于元数据的定义存在较大的异质性,这些异质性在数据元素的概念域尤其集中.虽然如此,通过机器学习的方法,还是能够依据现有的数据元素的定义实现数据可兼容性的自动判断.研究所建立的方法,对于优化数据元素构建流程、丰富数据标准化工具具有一定的应用价值.
元数据、异质性、通用数据元素、本体、支持向量机
38
R318(医用一般科学)
中国医学科学院医学与健康科技创新工程项目2018-I2M-AI-009;国家重点研发计划2017YFC0908404;“国家人口与健康科学数据共享服务平台基础医学科学数据中心”
2019-07-22(万方平台首次上网日期,不代表论文的发表时间)
共8页
324-331