【大数据仓库】用于医疗保健敏感数据应用程序的大数据仓库
视频号
微信公众号
知识星球
School of Computer Science, University College Dublin, Belfield, Dublin 4, Ireland
*Author to whom correspondence should be addressed.
Sensors 2021, 21(7), 2353; https://doi.org/10.3390/s21072353
Received: 8 March 2021 / Revised: 23 March 2021 / Accepted: 25 March 2021 / Published: 28 March 2021
(This article belongs to the Section Intelligent Sensors)
Abstract
肥胖是世界范围内的一个主要公共卫生问题,儿童肥胖的流行尤其令人担忧。预防和治疗儿童肥胖的有效干预措施旨在改变个人、社区和社会层面的行为和暴露。然而,监测和评估这些变化是非常具有挑战性的。欧盟地平线2020项目“儿童肥胖大数据(BigO)”旨在使用不同的传感器技术收集大量儿童的大规模数据,以创建全面的肥胖流行率模型,用于数据驱动的社区特定政策预测。它进一步提供了对人口反应的实时监测,并得到了有意义的实时数据分析和可视化的支持。由于BigO涉及监控和存储与潜在弱势群体行为相关的个人数据,因此数据表示、安全性和访问控制至关重要。在本文中,我们简要介绍了BigO系统架构,并重点介绍了系统中处理数据访问控制、存储、匿名化的必要组件,以及与系统其他部分的相应接口。我们提出了一种三层数据仓库架构:后端层由一个数据库管理系统组成,用于原始数据集的数据收集、去标识和匿名化。基于角色的权限和安全视图在访问控制层中实现。最后,控制器层调节用于任何数据访问和数据分析的数据访问协议。我们进一步提出了考虑隐私和安全机制的数据表示方法和存储模型。数据隐私和安全计划是根据收集的个人类型、用户类型、数据存储、数据传输和数据分析制定的。我们详细讨论了在这个大型分布式数据驱动应用程序中隐私保护的挑战,并实现了新的隐私感知数据分析协议,以确保所提出的模型保证数据集的隐私和安全。最后,我们介绍了BigO系统架构及其集成了隐私感知协议的实现。
Keywords:
big data representation; healthcare data; big data security; privacy-aware models
1. Introduction
随着全球收入流行率的上升,2016年,近7.8%、7.8%的男孩和5.6%、5.6%的女孩患有儿童肥胖[1]。由于肥胖是一个主要的全球公共卫生问题[2],对个人和整个社会都有重大的成本影响,因此必须采取强有力的措施来干预儿童肥胖。肥胖儿童容易经历一系列身体和心理社会健康问题[3]。肥胖也会导致儿童时期出现的2型糖尿病和冠心病等严重健康问题[4]。
在过去的二十年里,肥胖的病因在生物医学科学中得到了彻底的研究,即基因变异。然而,人们发现,人与人之间的基因变异可以解释近1.5%的体重指数(BMI)个体间变异[5]。现有的流行病学方法在很大程度上探讨了肥胖问题作为非传染性疾病的风险因素,但没有将其作为肥胖环境中行为的结果进行研究[6]。由于药物干预的可靠性和外科手术的侵入性不足,人们越来越依赖行为疗法。
针对儿童行为模式的各个方面的干预措施,如他们如何进食、如何移动、如何在环境中互动以及如何睡眠[7],可以对儿童肥胖产生积极影响[8,9]。不幸的是,大多数全球公共卫生行动仅限于不分青红皂白的“一揽子政策”,严重缺乏共同的监测和评估框架也于事无补[10]。
在过去的十年里,移动和可穿戴设备领域的进步催生了新一代的创新医疗保健研究[11]。SPLENDID欧盟项目[12]等创新努力突破了在日常生活中使用技术的界限,以筛查、监测和规范与肥胖进展相关的行为。与此同时,大数据收集、处理和分析领域的新成就使这些工作能够在更大范围内扩大,使公民能够积极参与重塑地区层面的卫生政策。大数据收集旨在探索行为、建筑环境和肥胖之间的因果关系。
可以利用行为改变科学、公共卫生、临床儿科、信息通信技术、公民科学和大数据分析领域的最新发展来实施多学科研究项目,以解决在人口层面预防和治疗儿童和青少年肥胖的问题。H2020项目“BigO:对抗儿童肥胖的大数据”(http://bigoprogram.eu,于2021年3月21日访问)就是此类研究工作的一个例子。BigO项目旨在重新定义欧洲社会针对儿童肥胖流行率的战略部署方式。这些新策略使用公民科学家数据收集方法,使用不同的移动技术(智能手机、腕带、测力计)收集大规模数据[13]。主要目标是创建肥胖流行率依赖矩阵的综合预测模型,以研究特定政策对社区的有效性和对人口反应的实时监测。公民科学家将数据上传到BigO云基础设施上,用于聚合、分析和可视化。BigO的大规模数据采集使研究人员能够通过与社区行为模式和当地肥胖率的关联,创建分析行为风险因素和预测肥胖率的模型。
由于BigO涉及监控和存储与潜在弱势群体(即儿童和青少年)行为相关的个人数据(膳食、饮料、食品和饮料广告的照片以及GPS数据),因此数据表示、安全和访问控制具有挑战性。在这项研究中,我们首先开发了BigO系统中处理数据访问和存储的必要组件,包括它们与其他系统组件接口的定义和实现。这大大促进了数据聚合、数据分析和可视化,同时维护了个人的数据隐私和整个系统的安全。更确切地说,我们为BigO开发了一个三层数据仓库体系结构。其包括后端层、访问控制层和控制器层。后端层由用于数据收集、去标识和匿名化的数据库管理系统组成。基于角色的权限和安全视图在访问控制层中实现。最后,控制器层对数据访问协议进行规范。
医疗保健部门的敏感个人数据共享受欧盟95/46/EC指令和美国HIPAA等规则和法律的监管[14,15]。两种常见的隐私保护方法:(a)征得患者同意,以及(b)个人数据的匿名化。第一种方法保持了分析结果的正确性,但耗时、不灵活,而且在从大量患者中收集数据时更容易发生数据泄露[16]。然而,匿名化方法更灵活,但会影响数据质量和分析;尤其是在高维数据的情况下[17]。
考虑到BigO数据的高度复杂性,我们首先介绍了考虑隐私和安全的数据表示模式和存储模型。数据隐私和安全计划是根据数据存储、数据传输和数据访问协议中收集的个人数据类型制定的。我们详细讨论了隐私保护的挑战,并为儿童隐私实施了高效的隐私感知数据分析协议。请注意,该系统旨在识别和忽略冗余的个人信息。最后,我们实现了集成了隐私感知协议的BigO系统架构。
本文的其余部分组织如下:第2节介绍了医疗保健数据分析的数据匿名化挑战和系统要求,以及现有的隐私意识架构。随后分别在第3节和第4节中概述了BigO系统和数据收集方法以及基于用户类型的数据流。在第5节中,我们介绍了BigO数据仓库体系结构和存储系统中的大数据表示。第6节讨论了BigO的安全和隐私考虑以及隐私感知数据分析协议。第7节专门讨论了系统实现以及隐私感知协议如何集成到系统体系结构中。在第8节中,我们讨论了我们工作的利弊,并强调了未来的研究方向。最后,第9节对论文进行了总结。
2. Healthcare Data Privacy
我们首先简要概述了数据驱动医疗系统中的数据匿名挑战,然后列出了医疗系统中个人数据监控、共享和分析的必要隐私和安全要求。我们进一步简要回顾了现有系统,并根据这些要求对其进行了评估。
2.1数据匿名和共享
典型医疗保健数据集中的数据属性(或维度)可根据其敏感性及其与受试者的关系分为四类;(1) 敏感、(2)非敏感、(3)可识别和(4)准可识别。表1显示,除了明确的敏感和可识别属性外,还有许多被称为准标识符的特征,可以组合起来识别特定的个体。保护敏感、可识别或准可识别数据的隐私是一项关键挑战。数据匿名化保持了将敏感信息与个人联系起来的低置信度阈值[18]。
表1.电子健康记录中的信息类型(I:可识别,Q-I:准可识别,S:敏感)。
由于数据共享,记录链接[18]和属性链接[19]是两种常用的主要攻击类型。这两种情况都可以使用隐私模型来防止,例如k-匿名[20]和ℓ-多样性[19]。这些隐私模型的一些扩展版本,包括(X,Y)−匿名、LKC−隐私
,和t−接近度[18]; 可以使用各种匿名操作来实现,如噪声添加、泛化、混洗和扰动(perturbation )[21]。然而,其中一些操作,包括扰动和单元泛化,会影响数据集的质量及其用于知识发现(通过挖掘算法)或信息检索的可用性。
2.2.医疗保健数据要求
以下是医疗保健数据集的必要要求,一方面应保护和保密,另一方面应能够进行分析,以提取有用的知识,从而推进医疗保健研究和实践。关键思想是创造一个环境,在不透露个人身份的情况下分析私人和敏感数据。
- 隐私:这主要在医疗保健领域至关重要。患者的记录及其数据属性非常容易受到攻击。因此,在共享医疗数据集时,必须建立保护机制,以保护患者和个人的隐私。
- 数据质量:高质量的数据对于数据挖掘和分析至关重要(因为没有质量的数据就没有质量的结果)。因此,共享数据应该保持良好的属性值,这些值足够详细,可以用于挖掘和分析的目的。人们还必须仔细考虑高维度的诅咒[17],并在个人记录水平上保持真实性。
- 灵活性:对于各种分析任务和挖掘技术,隐私保护应该足够灵活。理想的方法是实现独立于挖掘算法和研究目的的隐私保护解决方案。
- 兼容性:隐私保护模型应符合并支持系统参考体系结构。
- 实用性:提供一定程度的支持,使研究人员能够按照适当的访问控制和道德机制重新访问患者数据。
2.3. Existing Data Privacy-Enhancing Techniques
数据隐私是一个复杂而多维的概念,在现代已经成为一个严重的威胁。它是在法律、哲学和技术背景下定义的。个人信息隐私技术旨在解决有关个人隐私信息及其暴露的问题。图1提供了现有数据隐私技术的分类视图,这些技术处理数据匿名化和随机化,以确保敏感信息的隐私。
Figure 1. A taxonomy of personal data-privacy techniques. Adopted from [22].
现有的医疗保健系统(第2.4节)在存储、传输和处理等三个主要方面缺乏隐私感知协议的集成。一些理论框架引入了数据匿名化方法来维护个人隐私,但它们降低了数据分析任务的质量。
在下文中,我们将根据上述要求对现有框架进行审查和评估。
2.4.现有最先进医疗保健系统的比较分析
我们首先回顾了最近欧洲关于预防肥胖的研究项目。ToyBox[23]项目提出了全面、成本效益高、家庭参与的计划,以支持儿童早期的肥胖预防。MOODFOOD项目[24]通过观察患者的饮食、饮食行为和肥胖,探讨了抑郁症的预防。该项目研究了来自荷兰、英国、德国和西班牙的990多名参与者。该项目对患者的抑郁症病史和饮食习惯进行了相关性研究。研究结果表明,不健康的饮食活动是导致抑郁症的主要因素。欧盟项目SPOTLIGHT[25]进行了一项系统研究,以确定个人层面的肥胖干预因素。该项目审查了与肥胖相关的社会和环境因素的作用,并对多层次干预措施进行了定性分析,考虑了干预措施的范围、有效性、实施和采用。Daphne项目[26]开发了一个数据即服务的医疗保健平台,通过将技术平台与临床支持联系起来,解决健康、体重、体育活动和生活方式问题。应该注意的是,上述涉及肥胖预防的项目都没有提供隐私和安全意识协议来处理患者的敏感个人信息。
使用传感器技术收集个人数据对于理解和治疗肥胖等各种医疗保健问题很有价值。然而,随着传感器技术的快速增长,用户的活动和特征等敏感个人数据受到隐私威胁。《通用数据保护条例》(GDPR)[27]等一系列规则为公司如何通过实施隐私保护解决方案来收集和共享欧盟公民的个人数据提供了指导。为了遵守GDPR协议,获得用户同意至关重要,尤其是在医疗保健行业。Rantos等人[28]提出了ADvoCATE,以帮助用户控制与访问从传感器和可穿戴技术收集的个人数据相关的同意。所提出的解决方案还指导数据控制器和处理器满足GDPR的要求。Larrucea等人[29]介绍了适用于医疗保健行业的符合GDPR的架构参考模型和同意管理工具。作者在架构模型中发现了潜在的安全和隐私威胁,并使用数据隐藏工具来确保共享健康记录时的隐私。Mustafa等人[30]在GDPR的背景下对移动健康应用程序的隐私要求进行了全面审查,并评估了支持慢性阻塞性肺病(COPD)患者异常情况监测、早期诊断和检测的系统的隐私要求。
也进行了一些理论研究,提出在医疗保健环境中开发数据仓库架构。Sahama等人[31]提出了一种解决数据集成问题的数据仓库体系结构。作者强调,需要探索对数据仓库模型的安全访问,同时通过使用循证、基于案例和基于角色的数据结构来尊重医疗保健决策支持系统。Ali Fahem Neamah[32]提出了一种灵活且可扩展的数据仓库,用于构建电子健康记录架构。作者强调了该系统支持移动应用程序开发的一些问题,包括与大型平台和设备的兼容性。Poenaru等人[33]提出了用于医疗信息存储的数据仓库形式的高级解决方案,以解决一些问题,如复杂的数据建模特征、分类结构和数据集成。上述所有数据仓库解决方案都不考虑数据存储、访问和分析的任何隐私和安全问题。
除了通过获得GDPR投诉患者的同意来改进医疗系统中的数据收集和集成协议外,同样重要的是以安全和隐私意识的方式存储个人数据,而不会干扰执行定期分析任务的数据质量。因此,数据匿名化协议已经在许多医疗保健框架中实现。然而,在大数据领域;由于有几个属性,也可以被视为准标识符,数据匿名化变得不平凡,并导致大量信息丢失[17]。Sweeney等人[34]提出的Datafly使用数据接收器的配置文件和全球数据要求来执行数据匿名化。然而,由于Datafly是一个独立的程序,因此在医疗保健系统中的集成很困难。此外,它没有考虑属性链接攻击和高维诅咒。[35]中提出的Datafly扩展解决了隐私问题,但兼容性和数据质量保持不变。Agarwal等人[36]通过提供数据披露管理协议和服务提出了Hippocratic。该框架支持访问控制、匿名化和审计,但缺乏灵活性、隐私意识、数据质量和兼容性。当对各种分析任务进行评估时,由于匿名操作,如扰动和细胞泛化,Hippocratic在记录级别上失去了真实性,并导致错误的挖掘结果[18]。Prasser等人[37]提出了一种ARX框架,该框架通过实现隐私感知模型来解决隐私问题,但由于没有考虑高维度的影响而缺乏数据质量。
Nguyen等人[38]提出了电子健康记录(EHR)系统的隐私感知协议,该协议使用安全视图和高级中间件架构。Tran等人[39]提出了一种模型驱动的分布式体系结构,用于医疗保健数据存储和分析的安全性,该体系结构控制敏感数据的访问权限和分布式节点之间的传输控制。这两种策略是有效的,需要进一步研究。
2.5. Summary
医疗保健部门最近的研究重点是以数据收集的同意管理系统的形式开发符合GDPR的协议。现有最先进的医疗保健数据仓库系统解决了各种问题,如灵活性、可扩展性、数据集成和软件系统兼容性。然而,这些系统缺乏用于数据存储、访问和分析的隐私和安全感知协议的集成。许多框架已经引入了数据匿名化方法来维护个人隐私,但当对分析任务进行评估时,会产生不正确的挖掘结果。如果不考虑高维度的影响,数据质量会进一步降低。一些工作通过实现用于存储EHR的安全视图和访问控制,提出了隐私感知协议,但它们需要在现实世界的医疗环境中进行进一步调查。
总之,医疗保健数据仓库体系结构应该实现用于监控和存储个人数据的隐私感知协议。构建健康医疗数据集的主要目标包括数据保护和隐私,以及分析和挖掘有见地的知识以改进医疗研究和实践的适用性。换言之,数据驱动的医疗保健平台应努力开发一种环境,在这种环境中,可以在不透露个人身份的情况下分析私人和敏感数据。
BigO项目旨在收集学校和诊所25000多人的大规模数据,以制定有效的肥胖预防政策。这种大规模的个人数据收集、存储和处理需要进行研究和开发,以便在数据仓库架构中实现强大的隐私和安全协议和框架。在这项工作中,我们提出了一种三层数据仓库体系结构,包括:
- 具有数据库管理系统的后端层,用于原始数据集的数据收集、去标识和匿名化。
- 基于角色的权限和安全视图在访问控制层中实现。
- 控制器层调节用于任何数据访问和数据分析的数据访问协议。
我们进一步介绍了考虑隐私和安全机制的数据表示方法和存储模型。数据隐私和安全计划是根据收集的个人类型、用户类型、数据存储、数据传输和数据分析制定的。最后,我们介绍了BigO系统架构及其集成了隐私感知协议的实现。
3. BigO System—Overview
本节介绍了BigO的目标、数据来源和测量,以及相关的利益相关者,以了解儿童肥胖的原因。
BigO努力提供一个创新的系统,使公共卫生当局(PHA)能够根据其肥胖流行风险评估其社区,并根据客观证据采取当地行动。图2提供了BigO平台的概述。学校和诊所的儿童或青少年以公民科学家的身份参与,通过移动设备(手机或智能手表)的传感器提供数据。他们通过手机和/或智能手表应用程序、学校门户(通过教师)、临床门户(通过临床医生)和在线社区门户与系统交互。在线门户网站从BigO平台收集的数据中提供见解。他们还让学生们可视化数据的简单摘要,量化他们对BigO倡议的贡献,以及如何对抗肥胖。移动应用程序和门户网站既是数据收集器,也是参与机制,帮助用户贡献他们的数据,并了解他们的数据在这种情况下为什么以及如何有用。他们的数据用于测量与儿童肥胖相关的环境的行为指标和局部外在条件。为了测量LEC,数据还从公开的外部来源收集,如地图、地理信息系统(GIS)和统计机构服务。收集的信息使用BigO分析、可视化和模拟引擎进行处理,这些引擎提取描述行为、环境及其关系模型的有意义的指标。由此产生的测量结果支持系统的政策顾问、政策规划师以及学校和临床顾问服务的运行。
图2.BigO系统概述。(1) 公民科学家。(2) 诊所通过智能手表和移动应用程序对儿童进行监控。(3) 匿名和加密数据传输。(4) 外部数据源(地图、POI、区域统计)。(5) BigO云数据聚合和处理。(6) 数据分析和可视化库和工具。(7) 安全的分布式数据库存储。(8) 政策顾问服务。(9) 政策规划服务。(10) 学校和临床顾问服务。(11) 临床医生使用网络工具来监测和指导儿童。(12) 用于决策者决策支持的Web工具。(13) 政策制定者确定儿童肥胖状况。(14、15、16)政策适用于医院、学校、社区或地区层面。(17) 应用政策影响公民科学家,结束循环并启动另一轮数据收集和分析。
总之,从技术角度来看,BigO测量和研究了两个主要因素:(1)当地外在条件和(2)个人行为模式。从这些因素中收集的数据由下面列出的BigO用户进行解释:
1.作为数据提供者的年龄段(9-18岁)内的儿童和青少年:
- 在校学生,通过学校有组织地开展体育活动、饮食和睡眠项目。
- 参加肥胖诊所的患者。
- 个人志愿者。
2.老师们与学生一起组织学校活动。
3.在诊所治疗病人的临床医生。
4.公共卫生官员(研究人员或政策制定者)结合与肥胖相关的当地外在条件(LEC)评估地理区域内的儿童/青少年行为指标。
5.学校、诊所和整个BigO平台的管理员。
Figure 3 总结了基于上述用户组的数据流。最初,教师和临床医生将数据插入系统(初始用户注册)。孩子们主动(通过记录食物广告或用餐)和被动(通过自动运动检测)通过将数据发送到系统中来共享数据。所有这些数据都在数据库管理系统(DBMS)中组织和表示,并上传到服务器,在那里可以在门户网站中立即查看、处理和分析。
Figure 3. BigO information flow.
4. BigO Data Collection
Figure 4显示了BigO收集的四大类数据;(1) 个人或行为数据源,(2)人口数据源,,(3)区域数据源,以及(4)地图数据源。下文将对这些问题进行简要讨论。
Figure 4.
BigO所需原始数据源的分层分类。这款智能手机在视觉上与同类产品不同,因为它是一个混合原始数据源(由于食品广告照片)。
- 个人数据来源(行为):这些原始数据是从公民科学家那里收集的,涉及与BigO研究相关的行为模式(例如,一个人如何移动、进食、睡眠)。这一类别的原始数据是从个人便携式和/或可穿戴设备中收集的。根据移动感官数据采集设备对这些来源进行进一步分类;(即,(a)智能手机、(b)智能手表和(c)Mandometer)。我们根据BigO系统的要求,将设备组合在三种设置中,这需要数据收集和外围传感器的可用性(表2)。
- 人口数据来源(统计):原始数据来源包含居住在特定地区(农村、城市等)的人口特征信息。数据提供商包括参与BigO的国家统计机构。根据人口统计的类型,原始数据源进一步分为(a)人口数据源和(b)与感兴趣城市及其行政区域的人口有关的社会经济原始数据源。
- 区域数据源(地理空间):这些数据包含与感兴趣的BigO区域(国家、城市或行政城市区域)链接的地理空间数据。
- 映射数据源(分层映射):网络映射数据由第三方API提供。根据数据类型,这些来源进一步分类为a)地图(即交互式地形图)和(b)兴趣点(PoI)。
表2.在BigO系统中部署的数据收集模式。所有模式都包括使用智能手机。缩写:智能手机(SP)、腕带(WB)和下颌测量仪(MM)。
5. Big Data Warehouse Architecture
本节介绍了考虑到数据安全和隐私的大数据仓库体系结构和BigO中实现的数据表示方法。BigO数据仓库(DW)体系结构如图5所示。DW由各种存储系统组成,具体取决于BigO系统中数据生命周期任何阶段所需的敏感度和访问类型。它是按照三层体系结构设计的。这三层(在本例中为层)是后端层、访问控制层和控制器层。
Figure 5.
BigO数据仓库体系结构。
- 原始数据:在BigO系统中,原始数据按照两个主要模式存储。这些模式是使用两个现代数据库实现的;MongoDB和Cassandra。出于两个不同的原因,我们创建了两个模式:第一个是出于安全和隐私的原因。分离降低了数据访问违规和故意操纵的风险。第二个原因是,在分析过程中,这两个模式的使用方式不同,而且来自不同的角色。例如,Cassandra用于存储时间序列数据,而MongoDB用于其他数据。此外,在分析过程中还使用了外部数据源,包括权威数据库和国家统计数据库。
- 取消标识的统计数据:将删除所有有关用户身份的信息。这包括个人汇总数据和人口统计数据,即根据原始数据和参考数据得出和计算的统计数据。
- 匿名数据:除了去识别之外,我们还使用数据挖掘算法对数据进行了进一步的匿名化,以便无法从数据分析过程中提取的知识中恢复原始数据。
5.1. Access Control Layer
该层包括基于角色的访问控制和安全视图。基于角色的访问控制在控制器请求访问原始数据和基于其角色取消标识的统计数据时检查控制器的权限。基于角色的访问控制只接收来自移动应用程序控制器或门户控制器的数据请求。而安全视图控制着从匿名数据中提取的知识。安全视图仅接收来自web应用控制器和分析服务的数据请求。
5.2. Controller Layer
有四种类型的控制器,即移动应用程序控制器、门户控制器、web应用程序控制器和分析服务。该层接收来自用户或系统的其他组件的数据请求。每当收到用户的数据请求时,他们都会使用令牌和组件的角色来检查用户的权限。
5.3. Data Storage and Integration
为实现BigO数据仓库而定义的存储系统使用MongoDB和Cassandra。MongoDB是主要的应用程序数据库,而Cassandra用于存储大量的时间序列数据。Mobile、Web门户和Web应用程序控制器仅通过RESTAPI以书面形式直接访问存储系统。此外,这些API实现了数据集成和整合需求,从而将从不同来源收集的数据存储在数据仓库中的统一表示中。图6显示了不同系统模块之间的数据流。
Figure 6.
BigO系统的组件图。
除了核心数据库之外,BigO还提供了对分布式文件系统的访问,该系统是Hadoop的HDFS。其目的是以方便的格式保存可以直接从数据库中提取的大型数据集文件,供数据分析算法(模块)使用。定期过程每天以固定的时间间隔更新数据库中的文件内容。附录A.1和附录A.2提供了核心数据库的详细模式。在下文中,我们将讨论存储在每个核心数据库中的数据。
5.3.1. MongoDB Data
存储在MongoDB中的数据是从四个不同的来源收集的,如下所述:
- 入口控制器:BigO系统中有五个入口;管理门户、学校门户、社区门户、公共卫生当局门户和临床门户。数据是从所有这些门户网站收集的,并在存储MongoDB数据库之前进行集成。
- 移动控制器:该控制器处理从手机或智能手表收集的数据。数据经过预处理、集成,然后传输到MongoDB。这些数据特别重要,因为它很敏感,应该小心处理。
- 分析服务:数据分析组件处理存储在两个数据库中的整个数据集。分析组件使用Spark计算环境。分析结果存储回MongoDB数据库中。
- 后端分析服务:该服务访问存储在两个数据库中的数据,以提取行为指标。然后将这些新的数据属性存储在MongoDB中。后端分析服务是在Spark环境中执行的。
5.3.2. Cassandra Data
该数据库主要存储从外部来源和移动应用程序收集的原始数据。
- 外部来源:外部数据来源包括个人行为数据和外部人口数据。这些数据集通过外部数据集成模块直接传输到数据库(图6)。例如,关于个人设备的数据。
- 移动应用程序控制器:通过智能手机或智能手表收集的移动应用程序数据使用移动应用程序内容提供商存储在移动应用程序的数据库中。然后将存储的数据与Cassandra数据库同步。(图6)。
6. Data Security and Privacy
隐私和安全是任何信息系统的基本要求。尽管数据安全和数据隐私是相关的,但它们处理的问题不同,需要采取不同的对策。数据安全旨在保护机密性、完整性、可用性和不可否认性。而数据隐私防止共享数据泄露其相应所有者的敏感信息。在BigO中实现了以下数据安全方法。
- 安全存储:BigO系统架构使用主流平台实现,如Cassandra、MongoDB、SQLite数据库管理系统、Hadoop、Android和iOS的HDFS文件系统。这些标准系统采用内置加密技术来保护系统组件及其包含的数据。第6.1节提供了有关每种类型存储的更多详细信息。
- 安全通信:当数据在系统的各个模块之间传输时,必须确保数据的安全。BigO模块之间的通信使用安全协议,如SSL、TLS或HTTPS(有关更多详细信息,请参阅第6.1节)。
- 数据访问控制:访问控制在大型系统中是一个复杂的问题,如BigO。因此,我们实现了一个完整的访问控制解决方案,包括一致的策略、清晰而强大的注册、身份验证和授权机制。它们总结如下:
- 移动应用程序存储:在BigO中,移动应用程序数据存储只能由该手机的后端访问,并且只包含其所有者的个人数据。因此,在这种情况下不需要细粒度的访问控制。它使用基于用户名和密码的简单访问控制。
- 辅助文件存储:这是一种用于处理原始数据的临时存储,由移动后端通过其控制器使用。与移动应用程序存储一样,它只需要一个带有用户名和密码的基本访问控制。
- 数据库服务器:这些是主存储器,包含所有用于分析的BigO数据。这些数据可供各种最终用户使用,具体取决于他们的角色。基于角色的访问控制(RAC)机制与用于授予角色和权限的特定策略一起使用。每个数据库都是通过RESTful API访问的。(详见第6.2节)。
BigO数据隐私保护基于个人数据的类型(表2)。这些数据类型如下所示:
- 惯性传感器、运动和Mandometer数据:这些数据类型被收集并存储在个人设备(智能手表、手机、Mandometer)上。只提取统计和概括数据并将其提交给BigO服务器。这些类型的数据不会增加隐私风险。
- 照片:所有照片均由BigO管理员审核。任何被认为不相关、不雅或暴露用户身份的照片都会从系统中删除。
- 可识别数据:在将数据存储到数据仓库之前,会删除所有属性,如用户名、设备ID等。删除此类属性的操作称为取消标识(第6.3节)。
- 准可识别数据:所有数据属性,如国家、地区、学校、诊所、身高、体重、性别、出生年份、自我评估答案、照片位置等,都通过匿名处理。然而,由于对数据质量的不利影响,采用了隐私保护协议来考虑这类数据(第6.3节)。
6.1. Data Protection
移动应用程序:该移动应用程序是为Android和iOS构建的。这两个操作系统都具有内置的安全功能。我们利用这些功能来保护应用程序收集的数据,即使在使用默认系统和文件权限的情况下也是如此[17]。例如,Android操作系统的核心安全功能包括Android应用程序沙盒,它将应用程序数据和代码执行与其他应用程序隔离开来。iOS也提供了相同的功能。
BigO应用程序将所有数据(包括SQLite DB数据、应用程序内获取的照片和共享偏好)存储在设备的内部存储中。所有这些数据在同步/上传到BigO服务器后立即被删除。
- 数据库服务器:MongoDB和Cassandra系统包含了非常有趣的安全模型。例如,MongoDB安全模型分为四个主要部分:身份验证、授权、审计和加密。我们在下面简要解释了MongoDB和Cassandra如何支持数据安全保护功能。
- 身份验证:MongoDB集成了外部安全机制,包括轻型目录访问协议(LDAP)[40]、Windows Active Directory、Kerberos[41]和x.509 PKI[42]证书,以重新实施对数据库的访问控制。
- 授权:可以在MongoDB中定义用户定义的角色,根据用户或应用程序所需的权限为其配置细粒度权限。此外,可以定义只公开给定集合中数据子集的视图。
- 审核:为了遵守法规,MongoDB安全模型记录本机审核日志,以跟踪对数据库的访问和操作。
- 加密:MongoDB安全系统提供网络、磁盘和备份上的数据加密数据。通过加密磁盘上的数据库文件,可以消除外部加密机制的管理和性能开销。
- 监控和备份:MongoDB提供了各种工具,包括Mongostat、Mongotop和MongoDB管理服务(MMS)来监控数据库。主机系统的CPU和内存负载的突然峰值以及数据库中的高操作计数器可能表示拒绝服务攻击。
ApacheCassandra是一个NoSQL数据库系统,它不是基于共享架构,例如MongoDB。它依赖于DataStax Enterprise(DSE)[43]来提供安全功能,如飞行中和静止中的数据加密、身份验证、授权和数据审计。DataStax Enterprise(DSE)[43]与现有技术紧密集成,包括对Active Directory(AD)、轻型目录访问协议(LDAP)、Kerberos、公钥基础设施(PKI)和密钥管理互操作性协议(KMIP)的支持。下文将对此进行解释。
- 加密:它保持数据的机密性。通常,数据库数据加密分为两类:静止加密和飞行加密。第一种是指对存储在持久性存储器上的数据的保护。第二种是指数据在节点或客户端与DSE集群内的节点之间的网络上移动时的加密。
- DSE透明数据加密(TDE):是负责DSE系统中静态数据加密的功能。DSE TDE使用本地加密密钥文件或远程存储和管理的密钥管理互操作性协议(KMIP)加密密钥来保护敏感的静态数据。
- 身份验证:是指建立对数据库执行操作的人员或系统的身份的过程。DSE统一身份验证有助于连接到以下四种主要身份验证机制。它将相同的身份验证方案扩展到数据库、DSE搜索和DSE分析。
- 授权:在DSE中,授权决定了连接实体可以读取、写入或修改哪些资源(即表、密钥空间等),以及它们的连接机制。它使用GRANT/REVOKE范式进行授权,以防止对数据的任何不当访问,并使用三种机制进行用户授权:基于角色的访问控制(RBAC)、行级访问控制(RLAC)和代理身份验证。
- 审核:数据审核允许跟踪和记录在数据库上执行的所有用户活动,以防止未经授权访问信息并满足法规遵从性要求。使用DSE,将记录在DataStax集群上发生的活动的全部或子集,以及用户的身份和执行活动的时间。DSE中的高效审计是通过平台中内置的log4J机制实现的。
- 驱动程序:DataStax为C/C++、C#、Java、Nodejs、ODBC、Python、PHP和Ruby提供了驱动程序,这些驱动程序适用于任何集群大小,无论是部署在本地还是云数据中心。这些驱动程序配置了一些功能,例如SSL,以确保用户安全可靠地与DSE集群进行交互。
6.1.1. Auxiliary File Storage
辅助文件存储在BigO中用于存储用于开发目的的原始加速度计和陀螺仪数据。这种惯性测量数据不能用于识别用户,并且不会造成任何隐私风险。数据以自定义二进制格式存储在安全的Unix服务器中。
6.1.2. Data Transmission
数据在(a)智能手表和移动电话之间传输,(b)用户移动电话和BigO服务器之间传输,以及(c)在BigO的不同服务器之间传输。智能手表和手机之间的通信通过加密的蓝牙信道进行,潜在的攻击者必须靠近用户。此外,数据只能通过手机上的BigO应用程序访问;手机上运行的所有其他应用程序都无法接收传输的数据。移动电话和BigO服务器之间的通信使用2048位SSL进行加密。最后,考虑到所有BigO服务器都是同一数据中心的一部分,服务器之间的传输并不重要。
6.2. Data Access Control
6.2.1. Registration
注册过程取决于用户类型。不同的程序是:
- BigO管理员:这是由BigO开发人员创建的,并且是固定的。BigO管理员可以注册学校和诊所管理员。同样也可以审查提交的图片,以删除不合适的图片或损害个人隐私的图片。
- 学校管理员可以添加/编辑学校详细信息并注册教师。
- 诊所管理员可以添加/编辑诊所详细信息并注册临床医生。
- 教师可以创建组、编辑学生组和个别学生的详细信息,如BMI、学校锻炼计划等,还可以为学生创建注册码。
- 临床医生可以为患者创建注册代码,并编辑个人患者详细信息,如BMI。
- 学生可以使用老师提供的注册码通过BigO手机应用程序进行注册。当教师创建学生帐户时,会生成注册代码并将其存储在数据库中。学生在第一次使用应用程序时输入注册码。一旦注册码被“兑换”,学生将在系统中注册,注册码将不再有效。
- 患者使用临床医生提供的注册码进行注册;和学生们一样。
6.2.2. Authentication:
用户身份验证通过JSON Web令牌在专用的身份验证服务器上进行。过程如下:
- 每个用户都有一个用户名和密码(对于学生和患者,这些都是自动生成并存储在手机上的,没有用户的参与)。密码经过加盐和散列处理,编码后的密码存储在数据库中。
- 当移动电话需要访问受限制的REST端点时,它首先通过提供用户凭据向身份验证服务器请求JSON Web令牌(JWT)。凭据也被加盐(用同样的盐)和散列,身份验证服务器比较编码的密码。如果它们匹配,它将为用户提供一个有效的JWT。
- 使用JWT,移动应用程序和门户网站/应用程序可以访问受限制的REST端点,直到其过期。过期后,移动应用程序会向身份验证服务器请求新的JWT,并重复此过程。
6.2.3. Authorization:
BigO角色包括BigO管理员、学校管理员、诊所管理员、教师、临床医生、学生和患者、公共卫生当局角色以及志愿者学生。访问控制由BigO控制器(移动应用程序控制器、门户网站控制器、web应用程序控制器)在应用层实现。我们还在数据库层包括基于角色的集合级访问控制(MongoDB本机支持),作为额外的安全和数据保护机制。
6.3. Data Privacy Protection
在BigO中,数据存储在移动应用程序存储(包括移动文件系统和SQLite数据库)、辅助文件存储、Cassandra数据库和MongoDB数据库中。除了MongoDB数据库中的数据外,其他地方的数据都由数据所有者和内部模块访问和使用。MongoDB数据库很少直接共享用于分析。这是为了防止共享数据泄露数据所有者的敏感信息。因此,本节重点讨论了在出于分析目的共享这些数据时MongoDB数据库的隐私保护。
我们将在接下来的章节中首先讨论隐私保护的挑战。然后,我们进一步讨论了如何使用隐私感知协议来减轻这些挑战的影响。
6.3.1. Deidentification and Pseudonymisation
取消识别通过删除所有可以直接识别个人的字段,如姓名、电话号码和电子邮件,来隐藏数据所有者的真实身份。在我们的案例中,去标识不会影响数据分析结果的质量。
当数据被去标识和共享时,一个新的随机标识符被用来命名个人。在某些情况下,需要保持新旧标识符之间的关系,以便更新未识别的数据。因此,假名被用来为个人创建伪ID,并加密真实ID和伪ID之间的联系。然而,在BigO系统中,“username”和“display_id”用于与最终用户的接口,而子id仅由内部模块使用。因此,当孩子的数据被共享时,我们不需要为他们创建伪ID。可以保留孩子的ID,以区分共享数据集中的个人,而不透露他们的身份。
此外,可以同时删除不需要进行分析的字段。必须澄清的是,数据库集合“照片”不被视为可识别的信息来源。这是因为上传的照片会经过人脸识别算法和BigO管理员的检查,以确保它们只包含食品广告和餐食。
6.3.2. Anonymisation
实际上,由于准标识符的存在,去标识和假名化不足以保证数据集的安全。与可识别字段不同,删除准标识符会影响数据分析的质量。用于防止记录和属性链接攻击的隐私模型,如k-匿名、l-diversity和LKC隐私,使用了各种匿名操作,如泛化、抑制、混洗、扰动和添加噪声。然而,一些操作(例如,混洗、单元泛化和扰动)仅适用于特定的分析,并且可能使数据集不可用于挖掘算法。
BigO是一个具有高维数据集的大数据系统,尤其是当多个数据库集合组合在一起时。因此,在高维数据集上使用k-匿名及其扩展版本的匿名化会导致严重的数据失真,导致数据分析质量低下。
6.3.3. Privacy-Aware Data Analysis Protocol
所提出的隐私感知协议如图7所示。该协议旨在处理共享数据进行分析时的可识别和准可识别属性问题,并考虑了高维问题。
Figure 7. Privacy-aware data analysis protocol.
在传统方法中,分析任务被应用于质量下降的匿名数据。该协议的总体思想是对数据进行去识别,但不是匿名化。我们没有对数据进行匿名化并共享数据进行分析,而是为数据科学家提供了特殊的安全视图,以检查数据集,然后在未识别但未匿名的数据集上运行分析。特殊的视图使这些最终用户能够从不同的角度检查数据,但不会揭示敏感信息与患者之间的联系。数据科学家可以选择在去识别但非匿名的数据上运行的特征选择方法和分析算法。由于数据不包含标识符,因此所发现的结果具有高质量。此外,这个运行过程由系统管理,科学家无法访问非匿名数据。在公布之前,对结果进行检查,以确定是否存在未披露的意外信息。对生成的模型的一些细节进行了过滤,以保证儿童的隐私。协议的步骤如下:
取消标识:在此步骤中,将删除可识别的属性和用于分析的非重要属性。
匿名化准备:一些属性需要一些小的处理,以支持生成安全视图。这种情况通常发生在日期和数字属性上,但不是分类属性。例如,通常不需要保留详细的高度值。所以我们将它们四舍五入到范围内。这种转换不是一种匿名操作,它只是稍微改变了数据内容,用于分析的数据中的信息几乎被保留了下来。因此,我们将此步骤视为匿名化准备。这项任务的另一项重要工作是创建用于生成安全视图的匿名化预备(包括准可识别属性的分类树)。
安全视图生成:创建安全视图是为了帮助数据科学家从各种角度检查和理解数据集,但不能揭示患者与其敏感信息之间的联系。有三种类型的安全视图:
- -统计视图:它为自动计算的属性提供度量,如标准偏差、域范围和值统计。
-
-匿名视图:这提供了共享数据集的完整视图。为了保护隐私,我们应用了信息安全中的隐私和匿名(PAIS)算法[44]来实现LKC隐私模型[45]。LKC隐私防止高维数据集的记录和属性链接攻击。PAIS在分类树上使用自上而下的搜索策略来寻找记录的次优泛化。对于一般分析任务,可辨别成本被用作选择最佳专业化的衡量标准。
-
-分析观点:由于k-匿名是LKC隐私的一个条件,PAIS的结果存在高维问题。因此,匿名视图可能会提供关于准标识符的过于笼统的视图。还使用解剖技术提供了详细的或解剖的视图。
- 特征选择:在检查了具有不同视图的数据集后,数据科学家可以选择适当的转换、特征选择和提取方法,为其特定应用的分析任务生成适当的输入数据。处理是在去标识和非匿名数据集上完成的。
- 数据挖掘和结果匿名:数据科学家可以选择各种分析方法。在某些情况下,返回的结果可能过于详细。例如,决策树(上述分类算法的输出)具有链接到几个特殊个体的详细叶节点。因此,为了保证儿童的隐私,研究人员在发布挖掘结果之前必须对其进行检查和过滤。
- 演示和评估:对生成的模型进行评估,必要时可以从检查步骤重新启动数据分析师的分析。
7. Implementation for Privacy-Aware BigO System Architecture
7.1. Description of Architectural Changes
为了将图7中描述的隐私感知协议应用到BigO体系结构中(图6),我们更新了如图8所示的体系结构。可以看出,在去标识和匿名准备步骤之间添加了一些中间模块。这些模块支持定期汇总和人口统计预计算。架构的主要更新如下所示:
Figure 8. Privacy-aware BigO architecture.
- MongoDB数据库的分离:与BigO组件图(图6)中的一个MongoDB数据库不同,该数据库的集合被分离为三个数据库:
- -第一个MongoDB数据库(原始数据):该数据库包含管理数据和收集/测量的数据,包括集合USERS、CHILDREN、MEALS、TIMELINES、FOOD_ADVERTISEMENTS、DAILY_NSWERS和PHOTOS。
- -第二个MongoDB数据库(参考数据):该数据库存储与个人无关的数据,用于参考。该列表由集合SCHOOLS、CLINICS、GROUPS、REGIONS和PUBLIC_POIS组成。
- -第三个MongoDB数据库(包括个人聚合数据和人口统计):个人聚合数据包括定期汇总个别儿童行为数据的集合,如DAILY、WEEKLY和Statistics。人口统计数据包括集合COUNTERS、PUBLIC_POIS_VOTES、GEOHASH_VOTES、GEOHAS_ATTRIBUTES和HISTOGRAMS。
- API分离:更新后的BigO架构支持四种不同的API来访问Cassandra数据库和三个MongoDB数据库。
- 去识别模块:该模块删除可识别字段以及不需要分析的字段,并且不需要假名。
- 定期汇总模块:该模块定期汇总儿童的行为数据。
- 统计测量模块:该模块预先计算一些群体的统计数据,用于可视化特征和生成统计视图。
- 匿名准备模块:该模块执行上述隐私保护协议的匿名准备步骤中描述的任务。该模块的输出是匿名化准备和用于分析的去识别数据。
- 匿名准备:这些内容以JSON或XML的格式保存。
- 用于分析的去标识数据:该数据存储不应存储离散集合,如个人汇总数据和人口统计数据库中的集合。用于分析的数据应该是以便于生成安全视图和挖掘算法的格式组合的数据集。一个不错的选择是将CSV文件存储在Hadoop的文件系统存储中。
- 安全视图:用于分析的数据通过安全视图访问。有一些模块负责生成安全视图,并对未识别的数据运行特征选择/挖掘算法进行分析。
7.2. Process of Updating Data Changes
当原始数据存储发生更改时,进行检查是很重要的。在实践中,有两种可能的数据更新:
- 管理数据的更改:管理数据(如电子邮件、姓名、地址)是手动输入的,因此有时会出现需要更新的错误。由于该数据类型不会被提取以存储在其他数据库中,因此同步不是问题。
- 插入新措施:行为措施经常从移动应用程序上传到原始数据库。经过一定时间后,为了反映原始数据的变化,新的汇总数据被添加到单独的汇总数据存储中,现有的统计数据被更新到人口统计存储中。还重新计算了用于分析的匿名化预备数据和去识别数据。
8. Current Picture, Recommendations, and Future Directions
在本节中,我们回顾了我们在实施隐私意识大数据仓库架构方面的经验教训和建议,以及进一步研究方向的步骤。
我们首先强调了现有数据仓库体系结构中的一些主要问题,包括缺乏应对高维诅咒的能力。在传统框架中,分析任务被应用于数据质量下降的匿名数据。我们的工作提出了BigO数据仓库架构,并进一步集成了一种新的隐私感知协议,以处理可识别和准可识别数据属性的问题,同时共享用于分析任务的数据。我们在两个不同的级别,即应用程序级别和数据库级别,介绍了数据采集、集成和评估的安全协议。我们还介绍了注册、身份验证和授权等阶段的数据访问控制协议。
关键的想法是去识别个人数据,但不应该是匿名的。BigO数据仓库体系结构使用安全视图供数据科学家挖掘数据集。特殊的视图使最终用户能够执行我们的探索任务,而不会揭示敏感信息与相应患者之间的联系。
BigO系统中实现的隐私和安全协议可以应用于除医疗保健部门以外的任何数据驱动应用程序,在执行分析任务的过程中,在数据采集、存储、传输和访问过程中存在敏感个人信息丢失的风险。这些协议的本质是,在不降低数据质量的情况下,应该能够对数据执行挖掘和分析任务,而不会有敏感信息丢失的威胁。
作为未来的工作,我们计划制定适当和准确的数据治理政策和程序,以避免任何数据泄露、侵犯任何个人隐私,并为社会及其公民的利益产生高质量的结果。数据治理很重要,因为BigO项目处理敏感的个人和儿童数据,这些数据需要以高度的谨慎和信任进行管理和操作。因此,数据治理生命周期方法必须确保数据的机密性、质量和完整性。
9. Conclusions
由于肥胖已成为一个严重的全球公共卫生问题,对个人和整个社会都有影响,因此必须考虑行为干预和环境社区因素来干预儿童。BigO使用公民科学家的数据收集方法和不同的技术(智能手机、腕带、Mandometer)来创建肥胖流行率的综合模型。BigO的数据采集使研究人员能够创建模型,通过与社区行为模式和当地肥胖流行率的关联,分析行为风险因素并预测肥胖流行率。
个人数据的监控和存储使得数据表示、安全和访问控制成为一项具有挑战性的任务。本文首先实现了BigO的数据访问和存储组件,包括与其他系统组件的接口,以实现平稳运行的数据聚合、数据分析和可视化。我们为BigO提供了一个三层灵活的数据仓库体系结构,包括后端层、访问控制层和控制器层。
考虑到隐私和安全方面,我们在BigO数据库和存储模型中进一步实现了数据表示和共享协议。数据隐私和安全计划是根据收集的个人数据的类型,在数据存储、数据传输和数据访问方面制定的。我们提出了隐私保护方面的挑战,并实施了新的隐私感知数据分析协议,以确保由此产生的模型保证儿童的隐私。最后,我们实现了集成了上述隐私感知协议的BigO系统架构。
Author Contributions
Conceptualization, A.S., T.-A.N.N. and M.-T.K.; data curation, T.-A.N.N. and M.-T.K.; formal analysis, A.S., T.-A.N.N. and M.-T.K.; funding acquisition, M.-T.K.; Investigation, A.S., T.-A.N.N. and M.-T.K.; methodology, A.S., T.-A.N.N. and M.-T.K.; project administration, A.S., and M.-T.K.; resources, A.S., T.-A.N.N. and M.-T.K.; software, A.S., M.-T.K.; supervision, M.-T.K.; validation, A.S., T.-A.N.N. and M.-T.K.; visualization, A.S., T.-A.N.N. and M.-T.K.; writing—original draft, A.S.; writing—review and editing, A.S., and M.-T.K. All authors have read and agreed to the published version of the manuscript.
Funding
The work leading to these results was part of the EU H2020 project: BigO: Big data against childhood Obesity (Grant No. 727688, https://BigOprogram.eu, accessed on 21 March 2021). This project was part of the European Community’s Health, demographic change and well-being Programme of EU H2020. This work is also supported by Science Foundation Ireland under grant number SFI/12/RC/2289_P2.
Institutional Review Board Statement
The study was conducted according to the guidelines of the Declaration of Helsinki, and approved by the Institutional Human Research Ethics Committee of University College Dubin (2 September 2019).
Informed Consent Statement
Informed consent was obtained from all subjects involved in the study.
Data Availability Statement
Data sharing is not applicable to this article.
Acknowledgments
The research team wishes to acknowledge the research collaborators Anastasios Delopoulos, Eirini Lekka, Ioannis Ioakeimidis, Christos Diou, Isabel Perez, Daniel Ferri, and all the BigO Project Consortium Members; the W82GO clinical and administrative team, and the physiotherapy department at Children’s Health Ireland, Temple Street, Dublin; and participating patients and their parents.
Conflicts of Interest
The authors declare no conflict of interest. The funders had no role in the design of the study; in the collection, analyses, or interpretation of data; in the writing of the manuscript, or in the decision to publish the results.
Abbreviations
The following abbreviations are used in this manuscript:
BigO | Big Data for Obesity |
GPS | Global Positioning System |
HIPAA | Health Insurance Portability and Accountability Act |
EHR | Electronic Health Records |
PHA | Public Health Authorities |
LEC | Local Extrinsic Conditions |
GIS | Geographic Information System |
DBMS | Database Management System |
API | Application Programming Interface |
JWT | JSON Web Tokens |
Appendix A. Schema Design
This section present schema design for the core database in BigO.
Appendix A.1. MongoDB Schema
Figure A1, Figure A2, Figure A3, Figure A4 and Figure A5 show the schema of MongoDB. The schema is organized in collections as follows:
- 区域:此集合存储管理区域的有趣特征,以表示所有类型的地理或管理区域。因此,一个地区可以是一个城镇、一个城市、一个省甚至一个国家。每个区域都有一系列形成其边界的坐标。边界信息将由公共当局提供。根据区域类型,可以稍后添加区域特征字段。
- 地理散列:由于其层次结构和易于存储在数据库中等特殊特性,地理散列在BigO系统中用于表示地理信息。记录了一些地区儿童活动的数据。但是,只有匿名和统计数据存储在集合Geohash_attributes和Geohash_votes中。
- 公共POI:两个集合Public_POIs和Public_POIs_votes在公共兴趣点存储儿童的聚合活动信息。因此,集合Geohash_votes和Public_pois_votes的结构几乎相同。
- 学校和诊所:这些集合存储有组织的学校和诊所的信息。
- 小组:通过组织的学校参加BigO系统的学生被分成小组。每组由一名教师管理。
- 用户和儿童:BigO系统有许多类型的用户,但只收集儿童数据进行研究。因此,Users集合用于管理管理字段,而Children集合包括记录用于研究的字段。用户的可用字段取决于他/她的角色。一些特殊字段是共享的,因为它们对于两个集合上的流行查询是必需的。这种复制在插入新子项时需要少量的额外成本,但可以提高许多操作的性能。
- 照片:前一版本中的集合Meals和Food_Advertisements中的字段“照片”被分离以存储在集合Photos中。将特定集合中的所有照片分组可以使照片的管理和验证更加顺畅。
- 时间线和移动性:旧版本中的集合移动性被替换并扩展到集合时间线。新的收藏品不仅包括参观的地点,还包括儿童的旅行活动。
- Daily_awsers:这个新集合包含了日常问题的答案。
- 计数器:为子项(在集合Users中)生成显示ID是必需的。这些ID是通过调用函数getNextChildDisplayId(“children”)的自动递增序列生成的。一旦被调用,这个简单的函数就会将1添加到集合计数器中具有“_id”=“children”的文档的字段“child_seq”中,并返回新值作为新的显示id。类似的技术和集合计数器可以用于创建其他自动递增序列。
- 睡眠、行动、膳食和食品广告:这些集合存储了儿童日常活动的数据。特别是,餐食和食品广告中包含了儿童拍摄的照片。
- 饮食习惯:此集合包含可以从膳食中提取和汇总的饮食习惯信息。
- 统计信息:该集合用于存储统计信息,例如照片的数量。
- 每日和每周:活动的数据可以每日和每周汇总,然后存储在这些集合中。
Figure A1. MongoDB Schema—Part 1.
Figure A2. MongoDB Schema—Part 2.
Figure A3. MongoDB Schema—Part 3.
Figure A4. MongoDB Schema—Part 4.
Figure A5. MongoDB Schema—Part 5.
Appendix A.2. Cassandra Schema
Figure A6 shows collections in Cassandra. We now list them below:
-
Physical_activity_by_user: stores the data of activities (i.e., walking, standing, sitting, running, etc.) for each user.
-
Physical_activity_by_date: stores the data of activities (i.e., walking, standing, sitting, running, etc.) of users for each specific date and time.
Figure A6. Cassandra database Schema.
References
- Abarca-Gómez, L.; Abdeen, Z.A.; Hamid, Z.A.; Abu-Rmeileh, N.M.; Acosta-Cazares, B.; Acuin, C.; Adams, R.J.; Aekplakorn, W.; Afsana, K.; Aguilar-Salinas, C.A.; et al. Worldwide trends in body-mass index, underweight, overweight, and obesity from 1975 to 2016: A pooled analysis of 2416 population-based measurement studies in 128 · 9 million children, adolescents, and adults. Lancet 2017, 390, 2627–2642. [Google Scholar] [CrossRef][Green Version]
- Dobbs, R.; Manyika, J. The obesity crisis. Cairo Rev. Glob. Aff. 2015, 5, 44–57. [Google Scholar]
- Macaulay, E.; Donovan, E.; Leask, M.; Bloomfield, F.; Vickers, M.; Dearden, P.; Baker, P. The importance of early life in childhood obesity and related diseases: A report from the 2014 Gravida Strategic Summit. J. Dev. Orig. Health Dis. 2014, 5, 398–407. [Google Scholar] [CrossRef] [PubMed][Green Version]
- Bhave, S.; Bavdekar, A.; Otiv, M. IAP national task force for childhood prevention of adult diseases: Childhood obesity. Indian Pediatr. 2004, 41, 559–576. [Google Scholar] [PubMed]
- Collaborators, G.O. Health effects of overweight and obesity in 195 countries over 25 years. N. Engl. J. Med. 2017, 377, 13–27. [Google Scholar] [CrossRef]
- Di Cesare, M.; Sorić, M.; Bovet, P.; Miranda, J.J.; Bhutta, Z.; Stevens, G.A.; Laxmaiah, A.; Kengne, A.P.; Bentham, J. The epidemiological burden of obesity in childhood: A worldwide epidemic requiring urgent action. BMC Med. 2019, 17, 1–20. [Google Scholar] [CrossRef][Green Version]
- Daumit, G.L.; Dickerson, F.B.; Wang, N.Y.; Dalcin, A.; Jerome, G.J.; Anderson, C.A.; Young, D.R.; Frick, K.D.; Yu, A.; Gennusa, J.V., III; et al. A behavioral weight-loss intervention in persons with serious mental illness. N. Engl. J. Med. 2013, 368, 1594–1602. [Google Scholar] [CrossRef][Green Version]
- Katzmarzyk, P.T.; Barreira, T.V.; Broyles, S.T.; Champagne, C.M.; Chaput, J.P.; Fogelholm, M.; Hu, G.; Johnson, W.D.; Kuriyan, R.; Kurpad, A.; et al. The international study of childhood obesity, lifestyle and the environment (ISCOLE): Design and methods. BMC Public Health 2013, 13, 900. [Google Scholar] [CrossRef][Green Version]
- Blake-Lamb, T.L.; Locks, L.M.; Perkins, M.E.; Baidal, J.A.W.; Cheng, E.R.; Taveras, E.M. Interventions for childhood obesity in the first 1000 days a systematic review. Am. J. Prev. Med. 2016, 50, 780–789. [Google Scholar] [CrossRef][Green Version]
- Briggs, A.D.; Mytton, O.T.; Kehlbacher, A.; Tiffin, R.; Rayner, M.; Scarborough, P. Overall and income specific effect on prevalence of overweight and obesity of 20% sugar sweetened drink tax in UK: Econometric and comparative risk assessment modelling study. BMJ 2013, 347, f6189. [Google Scholar] [CrossRef][Green Version]
- Yang, H.J.; Kang, J.H.; Kim, O.H.; Choi, M.; Oh, M.; Nam, J.; Sung, E. Interventions for preventing childhood obesity with smartphones and wearable device: A protocol for a non-randomized controlled trial. Int. J. Environ. Res. Public Health 2017, 14, 184. [Google Scholar] [CrossRef] [PubMed][Green Version]
- Maramis, C.; Diou, C.; Ioakeimidis, I.; Lekka, I.; Dudnik, G.; Mars, M.; Maglaveras, N.; Bergh, C.; Delopoulos, A. Preventing obesity and eating disorders through behavioural modifications: The SPLENDID vision. In Proceedings of the 2014 4th International Conference on Wireless Mobile Communication and Healthcare-Transforming Healthcare Through Innovations in Mobile and Wireless Technologies (MOBIHEALTH), Athens, Greece, 3–5 November 2014; pp. 7–10. [Google Scholar]
- Delopoulos, A. Big Data Against Childhood Obesity, the BigO Project. In Proceedings of the 2019 IEEE 32nd International Symposium on Computer-Based Medical Systems (CBMS), Cordoba, Spain, 5–7 June 2019; pp. 64–66. [Google Scholar]
- Berman, J.J. Confidentiality issues for medical data miners. Artif. Intell. Med. 2002, 26, 25–36. [Google Scholar] [CrossRef]
- Elger, B.S.; Iavindrasana, J.; Iacono, L.L.; Müller, H.; Roduit, N.; Summers, P.; Wright, J. Strategies for health data exchange for secondary, cross-institutional clinical research. Comput. Methods Programs Biomed. 2010, 99, 230–251. [Google Scholar] [CrossRef]
- Ponemon, I. Sixth Annual Benchmark Study on Privacy & Security of Healthcare Data; Technical Report; Ponemon Institute LLC: Traverse City, MI, USA, 2016. [Google Scholar]
- Aggarwal, C.C. On k-anonymity and the curse of dimensionality. In Proceedings of the VLDB, Trondheim, Norway, 30 August–2 September 2005; Volume 5, pp. 901–909. [Google Scholar]
- Fung, B.C.; Wang, K.; Fu, A.W.C.; Philip, S.Y. Introduction to Privacy-Preserving Data Publishing: Concepts and Techniques; CRC Press: Boca Raton, FL, USA, 2010. [Google Scholar]
- Machanavajjhala, A.; Kifer, D.; Gehrke, J.; Venkitasubramaniam, M. L-diversity: Privacy Beyond K-anonymity. ACM Trans. Knowl. Discov. Data 2007, 1, 3-es. [Google Scholar] [CrossRef]
- Sweeney, L. K-anonymity: A Model for Protecting Privacy. Int. J. Uncertain. Fuzziness-Knowl.-Based Syst. 2002, 10, 557–570. [Google Scholar] [CrossRef][Green Version]
- Nelson, G.S. Practical Implications of Sharing Data: A Primer on Data Privacy, Anonymization, and De-Identification; Technical Report; ThotWave Technologies: Chapel Hill, NC, USA, 2015. [Google Scholar]
- Kanwal, T.; Anjum, A.; Khan, A. Privacy preservation in e-health cloud: Taxonomy, privacy requirements, feasibility analysis, and opportunities. Clust. Comput. 2021, 24, 293–317. [Google Scholar] [CrossRef]
- Manios, Y.; Grammatikaki, E.; Androutsos, O.; Chinapaw, M.; Gibson, E.; Buijs, G.; Iotova, V.; Socha, P.; Annemans, L.; Wildgruber, A.; et al. A systematic approach for the development of a kindergarten-based intervention for the prevention of obesity in preschool age children: The ToyBox-study. Obes. Rev. 2012, 13, 3–12. [Google Scholar] [CrossRef]
- Paans, N.P.; Bot, M.; Brouwer, I.A.; Visser, M.; Roca, M.; Kohls, E.; Watkins, E.; Penninx, B.W. The association between depression and eating styles in four European countries: The MooDFOOD prevention study. J. Psychosom. Res. 2018, 108, 85–92. [Google Scholar] [CrossRef]
- Lakerveld, J.; Glonti, K.; Rutter, H. Individual and contextual correlates of obesity-related behaviours and obesity: The SPOTLIGHT project. Obes. Rev. 2016, 17, 5–8. [Google Scholar] [CrossRef][Green Version]
- Gibbons, C.; Del Pozo, G.B.; Andrés, J.; Lobstein, T.; Manco, M.; Lewy, H.; Bergman, E.; O’Callaghan, D.; Doherty, G.; Kudrautseva, O.; et al. Data-as-a-service platform for delivering healthy lifestyle and preventive medicine: Concept and structure of the DAPHNE project. JMIR Res. Protoc. 2016, 5, e222. [Google Scholar] [CrossRef]
- Voigt, P.; Von dem Bussche, A. The eu general data protection regulation (gdpr). In A Practical Guide, 1st ed.; Springer International Publishing: Cham, Switzerland, 2017; Volume 10, p. 3152676. [Google Scholar]
- Rantos, K.; Drosatos, G.; Demertzis, K.; Ilioudis, C.; Papanikolaou, A.; Kritsas, A. ADvoCATE: A consent management platform for personal data processing in the IoT using blockchain technology. In Proceedings of the International Conference on Security for Information Technology and Communications, Bucharest, Romania, 14–15 November 2018; pp. 300–313. [Google Scholar]
- Larrucea, X.; Moffie, M.; Asaf, S.; Santamaria, I. Towards a GDPR compliant way to secure European cross border Healthcare Industry 4.0. Comput. Stand. Interfaces 2020, 69, 103408. [Google Scholar] [CrossRef]
- Mustafa, U.; Pflugel, E.; Philip, N. A novel privacy framework for secure m-health applications: The case of the GDPR. In Proceedings of the 2019 IEEE 12th International Conference on Global Security, Safety and Sustainability (ICGS3), London, UK, 16–18 January 2019; pp. 1–9. [Google Scholar]
- Sahama, T.; Croll, P. A data warehouse architecture for clinical data warehousing. In Proceedings of the ACSW Frontiers 2007: Proceedings of 5th Australasian Symposium on Grid Computing and e-Research, 5th Australasian Information Security Workshop (Privacy Enhancing Technologies), and Australasian Workshop on Health Knowledge Management and Discovery, Victoria, Australia, 30 January–2 February 2007; pp. 227–232. [Google Scholar]
- Neamah, A.F. Flexible Data Warehouse: Towards Building an Integrated Electronic Health Record Architecture. In Proceedings of the 2020 International Conference on Smart Electronics and Communication (ICOSEC), Tamilnadu, India, 10–12 September 2020; pp. 1038–1042. [Google Scholar]
- Poenaru, C.E.; Merezeanu, D.; Dobrescu, R.; Posdarascu, E. Advanced solutions for medical information storing: Clinical data warehouse. In Proceedings of the 2017 E-Health and Bioengineering Conference (EHB), Sinaia, Romania, 22–24 June 2017; pp. 37–40. [Google Scholar]
- Sweeney, L. Datafly: A system for providing anonymity in medical data. In Database Security XI; Springer: Berlin/Heidelberg, Germany, 1998; pp. 356–381. [Google Scholar]
- Chiang, Y.C.; Hsu, T.s.; Kuo, S.; Liau, C.J.; Wang, D.W. Preserving confidentiality when sharing medical database with the Cellsecu system. Int. J. Med. Inform. 2003, 71, 17–23. [Google Scholar] [CrossRef]
- Agrawal, R.; Johnson, C. Securing electronic health records without impeding the flow of information. Int. J. Med. Inform. 2007, 76, 471–479. [Google Scholar] [CrossRef] [PubMed]
- Prasser, F.; Kohlmayer, F.; Lautenschläger, R.; Kuhn, K.A. ARX—A comprehensive tool for anonymizing biomedical data. In Proceedings of the AMIA Annual Symposium Proceedings. American Medical Informatics Association, Washington, DC, USA, 19–21 May 2014; Volume 2014, p. 984. [Google Scholar]
- Nguyen, T.A.; Le-Khac, N.A.; Kechadi, M.T. Privacy-aware data analysis middleware for data-driven ehr systems. In Proceedings of the International Conference on Future Data and Security Engineering, Ho Chi Minh City, Vietnam, 29 November–1 December 2017; pp. 335–350. [Google Scholar]
- Tran, N.H.; Nguyen-Ngoc, T.A.; Le-Khac, N.A.; Kechadi, M. A Security-Aware Access Model for Data-Driven EHR System. arXiv 2019, arXiv:1908.10229. [Google Scholar]
- Zeilenga, K. Lightweight Directory Access Protocol (LDAP): Technical Specification Road Map; Technical Report, RFC 4510, June; OpenLDAP Foundation: Minden, NV, USA, 2006. [Google Scholar]
- Sun, J.; Gao, Z. Improved mobile application security mechanism based on Kerberos. In Proceedings of the 2019 4th International Workshop on Materials Engineering and Computer Sciences, Bangkok, Thailand, 17–19 May 2019; pp. 108–112. [Google Scholar]
- Tewari, H.; Hughes, A.; Weber, S.; Barry, T. X509Cloud—Framework for a ubiquitous PKI. In Proceedings of the MILCOM 2017—2017 IEEE Military Communications Conference (MILCOM), Baltimore, MD, USA, 23–25 October 2017; pp. 225–230. [Google Scholar]
- US, I.C. Secure and Protect Cassandra Databases with IBM Security Guardium. Available online: https://www.ibm.com/developerworks/library/se-secure-protect-cassandra-databases-ibm-security-guardium-trs/index.html (accessed on 5 October 2020).
- Xiong, L.; Truta, T.M.; Fotouhi, F. Report on international workshop on privacy and anonymity in the information society (PAIS 2008). ACM SIGMOD Rec. 2009, 37, 108–111. [Google Scholar] [CrossRef]
- Rafiei, M.; Wagner, M.; van der Aalst, W.M. TLKC-privacy model for process mining. In Proceedings of the International Conference on Research Challenges in Information Science, Limassol, Cyprus, 23–25 September 2020; pp. 398–416. [Google Scholar]
- 11 次浏览