10.3969/j.issn.1002-3208.2019.05.008
基于规则和机器学习的中文电子病历患者隐私保护算法
目的 针对医疗数据发布和共享中患者隐私泄露风险以及人工去标识效率低的问题,本文提出了一种基于规则和机器学习结合的算法,以有效去除电子病历中的患者隐私信息.方法 根据美国健康可携行与责任性法案和中文电子病历的表达习惯,将隐私数据分为数字、日期及命名实体三大类,利用正则表达式识别数字以及日期隐私数据,引入隐马尔科夫模型识别命名实体.最后使用上海市第六人民医院的出院小结作为测试数据,利用留出法测试了隐私数据识别的召回率和精确率.结果 该模型总体得到了超过90%的召回率,其中数字和日期类型的隐私数据召回率都超过96%,中文人名的识别效果也超过了单人识别的效果.结论 规则和机器学习结合的模型有效地识别了患者的隐私数据,有助于医疗数据的共享.
隐私保护、电子病历、命名实体、正则表达式、隐马尔科夫模型
38
R318.04(医用一般科学)
上海市信息化专项基金201602023
2019-11-04(万方平台首次上网日期,不代表论文的发表时间)
共6页
492-497