category
该架构展示了一个安全的研究环境,旨在允许研究人员在更高级别的控制和数据保护下访问敏感数据。本文适用于受法规遵从性或其他严格安全要求约束的组织。
架构
安全研究环境示意图。
Download a Visio file of this architecture.
数据流
- 数据所有者将数据集上载到公共blob存储帐户中。数据使用Microsoft托管密钥进行加密。
- Azure数据工厂使用一个触发器,该触发器开始将上载的数据集复制到另一个具有安全控制的存储帐户上的特定位置(导入路径)。只能通过专用终结点访问存储帐户。此外,它由权限有限的服务主体访问。数据工厂删除原始副本,使数据集不可变。
- 研究人员使用Azure虚拟桌面作为特权跳转框,通过流媒体应用程序访问安全环境。
- 安全存储帐户中的数据集被提供给在安全网络环境中提供的数据科学虚拟机,用于研究工作。大部分数据准备都是在这些虚拟机上完成的。
- 该安全环境具有Azure机器学习计算,可以通过Azure机器学习功能的用户专用端点访问数据集,例如训练、部署、自动化和管理机器学习模型。在这一点上,创建的模型符合监管指南。通过删除个人信息来取消对所有模型数据的识别。
- 模型或取消标识的数据将保存到安全存储(导出路径)上的单独位置。当新数据添加到导出路径时,会触发一个逻辑应用程序。在这种体系结构中,逻辑应用程序处于安全环境之外,因为没有数据发送到逻辑应用程序。它的唯一功能是发送通知并启动手动审批流程。
-
该应用程序启动审批流程,请求对排队导出的数据进行审查。手动审核人员确保不会导出敏感数据。在审查过程之后,数据要么被批准,要么被拒绝。
-
笔记 如果exfiltering不需要审批步骤,则可以省略逻辑应用程序步骤。
-
- 如果取消标识的数据得到批准,它将被发送到数据工厂实例。
- 数据工厂将数据移动到一个单独容器中的公共存储帐户,以允许外部研究人员访问他们导出的数据和模型。或者,您可以在安全性较低的环境中配置另一个存储帐户。
组件
该体系结构由几个Azure服务组成,这些服务根据需要扩展资源。服务及其作用如下所述。有关开始使用这些服务的产品文档的链接,请参阅下一步。
核心工作负载组件
以下是移动和处理研究数据的核心组件。
- Azure数据科学虚拟机(DSVM):配置有用于数据分析和机器学习的工具的虚拟机。
- Azure机器学习:用于训练、部署、自动化和管理机器学习模型,并管理机器学习计算资源的分配和使用。
- Azure机器学习计算:用于训练和测试机器学习和人工智能模型的节点集群。计算是根据自动缩放选项按需分配的。
- Azure Blob存储:有两个实例。公共实例用于临时存储数据所有者上传的数据。此外,它还将建模后的未识别数据存储在一个单独的容器中。第二个实例是私有的。它从机器学习中接收训练脚本所使用的训练和测试数据集。存储作为虚拟驱动器安装到机器学习计算集群的每个节点上。
- Azure数据工厂:自动在不同安全级别的存储帐户之间移动数据,以确保职责分离。
- Azure虚拟桌面用作跳转框,可根据需要通过流式应用程序和完整的桌面访问安全环境中的资源。或者,你可以使用Azure堡垒。但是,要清楚地了解两种选择之间的安全控制差异。虚拟桌面有一些优点:
- 能够流式传输像Microsoft Visual Studio Code这样的应用程序,以在机器学习计算资源上运行笔记本电脑。
能够限制复制、粘贴和屏幕捕获。
支持对DSVM的Microsoft Entra身份验证。
Azure Logic Apps提供自动化的低代码工作流,用于开发手动审批流程的触发和发布部分。
姿势管理组件
这些组件持续监控工作负载及其环境的态势。其目的是在发现风险后立即发现并减轻风险。
- Microsoft Defender for Cloud用于评估实施的总体安全态势,并为法规遵从性提供证明机制。以前在审计或评估过程中发现的问题可以尽早发现。使用安全分数和合规分数等功能来跟踪进度。
- Microsoft Sentinel是安全信息和事件管理(SIEM)以及安全协调、自动化和响应(SOAR)解决方案。您可以集中查看来自各种来源的日志和警报,并利用先进的人工智能和安全分析来检测、搜寻、预防和应对威胁。
- Azure Monitor可在整个环境中提供可观测性。查看大多数Azure资源中的指标、活动日志和诊断日志,无需添加配置。管理工具,如Microsoft Defender for Cloud中的管理工具,也会将日志数据推送到Azure Monitor。
治理组件
- Azure策略有助于强制执行组织标准并大规模评估合规性。
选择
- 该解决方案使用数据工厂将数据移动到单独容器中的公共存储帐户,以便外部研究人员能够访问其导出的数据和模型。或者,您可以在安全性较低的环境中配置另一个存储帐户。
- 此解决方案使用Azure虚拟桌面作为跳转框,通过流式应用程序和完整的桌面访问安全环境中的资源。或者,你可以使用Azure堡垒。但是,虚拟桌面有一些优势,包括流式传输应用程序的能力,限制复制/粘贴和屏幕捕获,以及支持AAC身份验证。您也可以考虑在本地配置点对点VPN进行离线培训。这也将有助于节省工作站使用多个虚拟机的成本。
- 为了确保数据的安全,此解决方案使用强大的加密技术,使用Microsoft托管密钥对所有Azure存储进行加密。或者,您可以使用客户管理的密钥。密钥必须存储在托管密钥存储中。
场景详细信息
潜在用例
该体系结构最初是为具有《健康保险便携性和责任法案》(HIPAA)要求的高等教育研究机构创建的。然而,这种设计可以用于任何需要隔离数据以进行研究的行业。一些例子包括:
- 根据美国国家标准与技术研究所(NIST)要求处理监管数据的行业
- 与内部或外部研究人员合作的医疗中心
- 银行和金融
通过遵循指导,您可以保持对研究数据的完全控制,职责分离,并满足严格的监管合规标准,同时在以研究为导向的工作量中提供典型角色之间的协作;数据所有者、研究人员和审批者。
注意事项
这些注意事项实现了Azure架构良好的框架的支柱,这是一套可用于提高工作负载质量的指导原则。有关详细信息,请参阅Microsoft Azure架构良好的框架。
安全
安全性提供了防止蓄意攻击和滥用您的宝贵数据和系统的保证。有关更多信息,请参阅安全支柱概述。
该架构的主要目标是提供一个安全可信的研究环境,严格限制数据从安全区域的泄露。
网络安全
用于存储、测试和训练研究数据集的Azure资源是在安全的环境中提供的。该环境是一个Azure虚拟网络,具有网络安全组(NSG)规则来限制访问,主要包括:
- 对公共互联网和虚拟网络内的入站和出站访问。
- 进出特定服务和端口。例如,此体系结构会阻止除Azure服务(如Azure Monitor)所需端口之外的所有端口范围。服务标签和相应服务的完整列表可以在虚拟网络服务标签中找到。
此外,接受在仅限于批准的访问方法的端口上使用Azure虚拟桌面(AVD)从虚拟网络进行访问,拒绝所有其他流量。与此环境相比,其他虚拟网络(具有AVD)相对开放。
安全环境中的主要blob存储不在公共互联网上。它只能通过专用端点连接和Azure存储防火墙在虚拟网络中访问。它用于限制客户端可以连接到Azure文件共享的网络。
此体系结构对安全环境中的主数据存储使用基于凭据的身份验证。在这种情况下,像订阅ID和令牌授权这样的连接信息存储在密钥库中。另一种选择是创建基于身份的数据访问,使用您的Azure帐户来确认您是否有权访问存储服务。在基于身份的数据访问场景中,不会保存任何身份验证凭据。有关如何使用基于身份的数据访问的详细信息,请参阅使用基于身份数据访问连接到存储。
计算集群可以通过使用Azure Private Link生态系统和服务/专用端点,而不是使用公共IP进行通信,仅在虚拟网络内进行通信。请确保启用“无公共IP”。有关该功能的详细信息,目前正在预览中(截至2022年3月7日),请参阅计算实例无公共IP。
安全环境使用Azure机器学习计算通过专用端点访问数据集。此外,Azure防火墙可用于控制来自Azure机器学习计算的出站访问。要了解如何配置Azure防火墙以控制对驻留在机器学习工作区中的Azure机器学习计算的访问,请参阅配置入站和出站网络流量。
要了解保护Azure机器学习环境的方法之一,请参阅博客文章“安全Azure机器学习服务(AMLS)环境”。
对于无法使用专用端点有效配置的Azure服务,或无法提供有状态数据包检查的服务,请考虑使用Azure防火墙或第三方网络虚拟设备(NVA)。
身份管理
Blob存储访问是通过Azure基于角色的访问控制(RBAC)进行的。
Azure虚拟桌面支持对DSVM的Microsoft Entra身份验证。
数据工厂使用托管标识访问blob存储中的数据。DSVM还将托管标识用于修复任务。
数据安全
为了确保数据的安全,所有Azure存储都使用Microsoft托管密钥加密,并使用强加密技术。
或者,您可以使用客户管理的密钥。密钥必须存储在托管密钥存储中。在此架构中,Azure密钥库部署在安全环境中,用于存储加密密钥和证书等机密。安全虚拟网络中的资源通过专用端点访问密钥库。
治理注意事项
使Azure策略能够强制执行标准并提供自动补救,以使资源符合特定策略的要求。这些策略可以作为单个策略或作为监管举措的一部分应用于项目订阅或管理组级别。
例如,在此体系结构中,Azure Policy Guest Configuration应用于范围中的所有VM。该策略可以审核数据科学虚拟机的操作系统和机器配置。
VM映像
Data Science虚拟机运行自定义的基本映像。要构建基本映像,我们强烈推荐Azure image Builder等技术。通过这种方式,您可以创建一个可重复的映像,该映像可以在需要时进行部署。
基本映像可能需要更新,例如其他二进制文件。这些二进制文件应该上传到公共blob存储,并在安全环境中流动,就像数据集由数据所有者上传一样。
其他注意事项
大多数研究解决方案都是临时工作负载,不需要长时间使用。此体系结构被设计为具有可用性区域的单个区域部署。如果业务需求需要更高的可用性,请在多个地区复制此体系结构。您将需要其他组件,如全局负载均衡器和分发服务器来将流量路由到所有这些区域。作为恢复策略的一部分,强烈建议使用Azure image Builder捕获并创建自定义基本映像的副本。
数据科学虚拟机的大小和类型应适合所执行的工作风格。该体系结构旨在支持单个研究项目,通过调整虚拟机的大小和类型以及为Azure机器学习可用的计算资源所做的选择来实现可扩展性。
成本优化
成本优化是指寻找减少不必要费用和提高运营效率的方法。有关更多信息,请参阅成本优化支柱概述。
DSVM的成本取决于底层VM系列的选择。由于工作负载是临时的,因此建议为逻辑应用程序资源制定消耗计划。使用Azure定价计算器根据所需资源的估计大小来估计成本。
Next steps
Related resources
- 登录 发表评论
- 4 次浏览
最新内容
- 2 days ago
- 2 days 5 hours ago
- 2 days 5 hours ago
- 4 days 21 hours ago
- 5 days 4 hours ago
- 5 days 5 hours ago
- 5 days 5 hours ago
- 5 days 5 hours ago
- 1 week 2 days ago
- 1 week 2 days ago