当前位置:网站首页>FEMRL: A Framework for Large-Scale Privacy-Preserving Linkage of Patients’ Electronic Health Rec论文总结
FEMRL: A Framework for Large-Scale Privacy-Preserving Linkage of Patients’ Electronic Health Rec论文总结
2022-08-10 18:40:00 【桐青冰蝶Kiyotaka】
FEMRL: A Framework for Large-Scale Privacy-Preserving Linkage of Patients’ Electronic Health Records论文总结
Abstract
整合来自不同数据源的大量患者医疗保健数据,以促进数据分析和清理任务。
LSHDB,它是一个并行和分布式数据引擎,用于执行隐私保护记录链接 (PPRL) 任务,同时提供结果完整性的正式保证。
I. INTRODUCTION
记录链接包括两个步骤:阻塞和匹配
阻塞步骤中,记录链接算法旨在从参与典型记录链接设置的大量记录中制定尽可能多的匹配记录对。
在匹配步骤中,该算法旨在将在上一步中制定的对分类为匹配或不匹配。
隐私保护记录链接(PPRL)技术可用于在隐私保证下实现高链接质量。
第一步,医疗保健提供者掩盖他们收集的电子患者记录,以保护某些(常见)直接标识符,例如患者姓名和家庭住址,这些标识符对于启用记录链接很有用 [30]。
其他直接标识符,例如患者的病历编号,由于它们既敏感又对 PPRL 无用(由于不通用)而从数据中隐藏。最后,选择的非直接标识符,例如症状或药物,保持未屏蔽,以促进基于这些维度的数据分析。
处理后的数据使用最先进的加密通信链路安全地传输到 TTP,并存储在安全环境中(遵循法律要求)。
II. RELATED WORK
缺乏:执行并行计算、处理分布式数据存储或构建有效的索引结构以在线查询数据。
III. PRELIMINARIES
A. Data Masking Methods
采用 Schnell 等人介绍的基于 Bloom 过滤器的编码方法,其中每个 Bloom 过滤器代表一个完整的数据记录。
频率攻击
B. Locality-Sensitive Hashing
Locality-Sensitive Hashing (LSH) technique
随机局部敏感散列 (LSH) 技术
LSH 保证使用严格定义数量的哈希表 [18] 以高概率识别每个相似的记录对。一对记录之间的相似性是通过在所使用的度量空间中指定适当的距离阈值来定义的。
C. Overview of LSHDB
分布式引擎,它利用 LSH 和并行性的力量来执行记录链接和相似性搜索任务。
对记录进行散列处理并将其保持为准备链接状态可以节省工作时间
在创建数据存储时,开发人员只需指定两个参数:
(i) 将采用的 LSH 方法,例如 Hamming、Min-Hash 或 Euclidean LSH
(ii) 底层 noSQL 数据引擎将用于托管数据。
跨分布式数据存储
IV. FEMRL: A FRAMEWORK FOR ELECTRONIC MEDICAL RECORD LINKAGE
A. Blocking and Matching of Records
一个非常重要的配置参数是定义将在距离计算期间使用的阈值,因为该阈值将指定将创建的哈希表的数量。
1) The Monolithic Mode单体模式:
在单体模式下,数据保管人会屏蔽他们的记录并将它们发送到 TTP (Trusted Third Party )。
反过来,TTP 将提交的数据集的屏蔽记录提供给 LSHDB,以构建必要的哈希表
将属于不同医疗保健提供者的已制定记录对与指定的距离阈值进行比较,以检测对应于同一患者的那些记录。
优点:简单
缺点:使单个站点不堪重负、可扩展性只能通过昂贵的软件和硬件升级来实现
2) The Distributed Mode分布模式:
TTP 在安全环境中维护多个站点,每个站点都持有数据保管人先前提交的屏蔽记录的水平分区。
被屏蔽的记录被提交到一个中心站点,然后转发到其余站点。
优点:(a) 在单个站点没有大规模发布和维护记录、 (b) FEMRL 可以轻松扩展
缺点:带有 noSQL 系统的 LSHDB 必须安装在每个站点中
3) Algorithms Used by Both Modes:(没有理解)
Complexity
算法 1 的运行时间与 A 的记录数成线性关系
算法 2 的总运行时间为
B. Integration with MapReduce
FEMRL 在 MapReduce 基础架构之上运行。
Map 阶段属于阻塞步骤,而 Reduce 阶段属于匹配步骤
- Map phase.
map阶段。每个映射任务构建手头的每个屏蔽记录的哈希键,并将它们与相应记录的 ID 一起发送到分区任务。 - Distribution of tuples.
元组的分布。每个分区任务,总是绑定到一个映射任务,控制制定的元组到归约任务的分布。具有相同哈希键的元组将被转发到特定的 reduce 任务。 - Reduce phase.
每个reduce任务处理任务转发的接收到的元组的负载。
首先,Map 任务对屏蔽的记录进行哈希处理,随后 Reduce 任务将聚合的哈希结果插入到适当的 LSHDB 实例中。
V. EXPERIMENTAL EVALUATION
实验评价
A. Data Sets and Metrics
数据集和指标
使用了两个指标:
(a) 配对完整性(PC 或召回率),即返回的真阳性数与真阳性总数的比率,
(b) 配对质量(PQ 或精度),即返回的真阳性数与处理的真假阳性总数之比。
VI. CONCLUSIONS
FEMRL,一种用于记录链接的隐私保护框架。
FEMRL 的核心组件是 LSHDB,这是一个并行的分布式数据引擎
LSHDB 与 MapReduce 的集成导致构建了一个分布式数据存储,用于执行按需 PPRL 任务。
边栏推荐
- 破解校园数字安全难点,联想推出智慧教育安全体系
- [Image segmentation] Image segmentation based on cellular automata with matlab code
- StoneDB Document Bug Hunting Season 1
- set和map使用讲解
- Win11连接投影仪没反应怎么解决?
- FPGA:从0开始(安装开发环境)加破解
- 多种深度模型实现手写字母MNIST的识别(CNN,RNN,DNN,逻辑回归,CRNN,LSTM/Bi-LSTM,GRU/Bi-GRU)
- 2022-08-09 Study Notes day32-IO Stream
- 2816. 判断子序列(双指针)
- 漫谈测试成长之探索——测试文档
猜你喜欢
工业基础类—利用xBIM提取IFC几何数据
友邦人寿可观测体系设计与落地
Introduction to 3 d games beginners essential 】 【 modeling knowledge
搭载2.8K 120Hz OLED华硕好屏 无畏Pro15 2022锐龙版屏开得胜
Optimization is a habit The starting point is to 'stand close to the critical'
postgis空间数据导入及可视化
MySQL 查询出重复出现两次以上的数据 - having
类型和id对应的两个数组
3D游戏建模学习路线
Major upgrade of MSE Governance Center - Traffic Governance, Database Governance, Same AZ Priority
随机推荐
Optimization is a habit The starting point is to 'stand close to the critical'
【图像分割】基于元胞自动机实现图像分割附matlab代码
Biotin-PEG4-IC(TFP ester/amine/NHS Ester/azide)特性分享
[Go WebSocket] 你的第一个Go WebSocket服务: echo server
800. 数组元素的目标和(双指针)
搭载2.8K 120Hz OLED华硕好屏 无畏Pro15 2022锐龙版屏开得胜
CSV(Comma-Separate-Values)逗号分隔值文件
三星Galaxy Watch5产品图片流出 非Pro表款亦有蓝宝石加持
关于技术分享的思考
【初学必备】3d游戏建模入门基础知识
pyspark列合并为一行
LeetCode·283.移除零·双指针
企业即时通讯是什么?可以应用在哪些场景?
弘玑Cyclone与风变科技达成战略合作:优势互补聚焦数字化人才培养
开发模式对测试的影响
陕西CAS:1244028-50-9_Biotin-PEG3-SCO-PPh3 固体
宝塔部署flask项目
阿里云贾朝辉:云 XR 平台支持彼真科技呈现国风科幻虚拟演唱会
VoLTE基础自学系列 | 3GPP规范解读之Rx接口(上集)
redis.exceptions.DataError: Invalid input of type: ‘dict‘. Convert to a byte, string or number first