category
本文描述了一种使用Azure机器学习来预测贷款申请人拖欠和违约概率的架构。该模型的预测是基于申请人的财政行为。该模型使用一组庞大的数据点对申请人进行分类,并为每个申请人提供合格分数。
Apache®、Spark和flame徽标是Apache软件基金会在美国和/或其他国家/地区的注册商标或商标。使用这些标记并不意味着Apache软件基金会的认可。
架构
显示用于预测信贷风险的架构的图表。
Download a Visio file of this architecture.
流
以下数据流对应于上图:
- 存储:如果数据是结构化的,则数据存储在类似Azure Synapse Analytics池的数据库中。较旧的SQL数据库可以集成到系统中。半结构化和非结构化数据可以加载到数据湖中。
- 摄入和预处理:Azure Synapse Analytics处理管道和提取、转换、加载(ETL)处理可以通过内置连接器连接到存储在Azure或第三方源中的数据。Azure Synapse Analytics支持使用SQL、Spark、Azure Data Explorer和Power BI的多种分析方法。您还可以使用现有的Azure Data Factory编排来进行数据管道。
- 处理:Azure机器学习用于开发和管理机器学习模型。
- 初始处理:在此阶段,对原始数据进行处理,以创建一个精心策划的数据集,用于训练机器学习模型。典型的操作包括数据类型格式化、缺失值插补、特征工程、特征选择和降维。
- 培训:在培训阶段,Azure机器学习使用处理后的数据集来培训信用风险模型并选择最佳模型。
- 模型训练:您可以使用一系列机器学习模型,包括经典的机器学习和深度学习模型。您可以使用超参数调整来优化模型性能。
- 模型评估:Azure机器学习评估每个训练模型的性能,以便您可以选择最佳模型进行部署。
- 模型注册:您注册在Azure机器学习中表现最好的模型。此步骤使模型可用于部署。
- c.负责任的人工智能:负责任的AI是一种以安全、可信和合乎道德的方式开发、评估和部署人工智能系统的方法。因为该模型推断出贷款申请的批准或拒绝决定,所以您需要实现负责任人工智能的原则。
- 公平性指标评估不公平行为的影响,并制定缓解策略。敏感特征和属性在数据集中和数据的队列(子集)中进行识别。有关详细信息,请参见模型性能和公平性。
- 可解释性是衡量你对机器学习模型行为理解程度的指标。负责任人工智能的这一组成部分生成了人类可以理解的模型预测描述。有关更多信息,请参见模型可解释性。
- 实时机器学习部署:当请求需要立即审查以获得批准时,您需要使用实时模型推理。
- 托管的机器学习在线端点。对于实时评分,您需要选择适当的计算目标。
- 在线贷款申请使用基于申请人表格或贷款申请输入的实时评分。
- 用于模型评分的决策和输入被存储在持久存储器中,并且可以被检索以供将来参考。
- 批量机器学习部署:对于离线贷款处理,计划定期触发该模型。
- 托管批处理终结点。安排批量推理并创建结果数据集。决定基于申请人的信誉。
- 批处理的评分结果集持久化在数据库或Azure Synapse Analytics数据仓库中。
- 与申请人活动数据的接口:申请人输入的详细信息、内部信用档案和模型的决策都会分阶段存储在适当的数据服务中。这些详细信息在决策引擎中用于未来的评分,因此会被记录下来。
- 存储:信用处理的所有细节都保留在永久存储中。
- 用户界面:向申请人提交批准或拒绝的决定。
- 报告:不断向管理者和领导层提供关于处理和批准或拒绝结果的申请数量的实时见解。报告示例包括批准金额、创建的贷款组合和模型性能的近乎实时的报告。
组件
- Azure Blob存储为非结构化数据提供了可扩展的对象存储。它针对存储二进制文件、活动日志和不遵循特定格式的文件等文件进行了优化。
- Azure数据湖存储是在Azure上创建经济高效的数据湖的存储基础。它提供了具有分层文件夹结构的blob存储,并增强了性能、管理和安全性。它为数PB的信息提供服务,同时保持数百GB的吞吐量。
- Azure Synapse Analytics是一项分析服务,它汇集了SQL和Spark的最佳技术,并为Azure Synapse Data Explorer和管道提供了统一的用户体验。它集成了Power BI、Azure Cosmos DB和Azure机器学习。该服务同时支持专用和无服务器资源模型,并支持在这些模型之间切换的能力。
- Azure SQL数据库是为云构建的始终最新、完全管理的关系数据库。
Azure机器学习是一种用于管理机器学习项目生命周期的云服务。它为数据探索、模型构建和管理以及部署提供了一个集成的环境,并支持机器学习的代码优先和低代码/无代码方法。 - Power BI是一种可视化工具,可轻松集成Azure资源。
- Azure应用程序服务使您能够在不管理基础设施的情况下构建和托管web应用程序、移动后端和RESTful API。支持的语言包括。NET。NET Core、Java、Ruby、Node.js、PHP和Python。
选择
- 您可以使用Azure Databrick来开发、部署和管理机器学习模型和分析工作负载。该服务为模型开发提供了一个统一的环境。
场景详细信息
金融行业的组织需要预测申请信贷的个人或企业的信贷风险。该模型评估贷款申请人的拖欠和违约概率。
信贷风险预测包括对人口行为的深入分析,以及根据财政责任将客户群分类。其他变量包括对结果有重大影响的市场因素和经济条件。
- 挑战。输入数据包括数千万的客户档案以及有关客户信用行为和消费习惯的数据,这些数据基于来自不同系统(如内部客户活动系统)的数十亿条记录。有关经济状况和国家/地区市场分析的第三方数据可以来自每月或每季度的快照,这些快照需要加载和维护数百GB的文件。需要信贷局关于申请人或半结构化客户数据行的信息,以及这些数据集之间的交叉连接和验证数据完整性的质量检查。
数据通常由信贷局的客户信息和市场分析组成。客户活动由可能没有结构化的动态布局的记录组成。客户服务说明和申请人互动表格中也提供了自由格式的数据。
处理这些大量数据并确保结果是最新的,需要简化处理。您需要一个低延迟的存储和检索过程。数据基础架构应该能够扩展以支持不同的数据源,并提供管理和保护数据外围的能力。机器学习平台需要支持对许多模型的复杂分析,这些模型在许多人群中进行训练、测试和验证。
- 数据敏感性和隐私。该模型的数据处理涉及个人数据和人口统计细节。你需要避免对人口进行剖析。必须限制对所有个人数据的直接可见性。个人数据的示例包括账号、信用卡详细信息、社会安全号码、姓名、地址和邮政编码。
信用卡和银行帐号必须始终混淆。某些数据元素需要屏蔽并始终加密,无法访问底层信息,但可用于分析。
数据需要在静止、传输和处理过程中通过安全飞地进行加密。对数据项的访问记录在监控解决方案中。生产系统需要设置适当的CI/CD管道,并获得触发模型部署和流程的批准。对日志和工作流程的审计应提供与数据的交互,以满足任何合规需求。
- 处理。该模型需要很高的计算能力来进行分析、情境化以及模型训练和部署。模型评分是根据随机样本进行验证的,以确保信贷决策不包括任何种族、性别、民族或地理位置偏见。需要对决策模型进行记录和归档,以备将来参考。决策结果中涉及的每一个因素都被存储起来。
- 数据处理需要高CPU使用率。它包括对DB和JSON格式的结构化数据进行SQL处理,对数据帧进行Spark处理,或对各种文档格式的TB信息进行大数据分析。数据提取、加载、转换(ELT)/ETL作业是定期或实时安排或触发的,具体取决于最新数据的值。
- 合规和监管框架。贷款处理的每一个细节都需要记录在案,包括提交的申请、模型评分中使用的功能以及模型的结果集。应登记模型培训信息、用于培训的数据和培训结果,以备将来参考、审计和合规要求。
- 批处理与实时评分。某些任务是主动的,可以作为批处理作业处理,如预先批准的余额转移。有些请求,如在线信贷额度增加,需要实时批准。
申请人必须能够实时访问在线贷款申请的状态。贷款发放金融机构持续监控信贷模型的性能,并需要深入了解贷款审批状态、批准的贷款数量、发放的美元金额和新贷款发放的质量等指标。
负责任的人工智能
负责任人工智能仪表板为多个工具提供了一个单一的界面,可以帮助您实现负责任的人工智能。负责任的AI标准基于六个原则:
图表显示了负责任人工智能的六个原则。
- Azure机器学习的公平性和包容性。负责任的人工智能仪表板的这个组件可以帮助您评估不公平行为,避免分配的危害和服务质量的危害。您可以使用它来评估根据性别、年龄、种族和其他特征定义的敏感群体的公平性。在评估过程中,公平性通过差异度量进行量化。您应该在Fairlearn开源软件包中实现缓解算法,该软件包使用奇偶校验约束。
- Azure机器学习的可靠性和安全性。Responsible AI的错误分析组件可以帮助您:
- 深入了解模型的故障分布情况。
- 确定错误率高于总体基准的数据队列。
- Azure机器学习中的透明度。透明度的一个关键部分是了解特征如何影响机器学习模型。
- 模型的可解释性有助于您了解影响模型行为的因素。它生成了对模型预测的人类可理解的描述。这种理解有助于确保您可以信任该模型,并帮助您调试和改进它。InterpretML可以帮助您理解玻璃盒模型的结构或黑盒深度神经网络模型中特征之间的关系。
- Counterfactual what-if 反事实假设可以帮助您理解和调试机器学习模型对特征变化和扰动的反应。
- Azure机器学习中的隐私和安全。机器学习管理员需要创建一个安全的配置来开发和管理模型的部署。安全和治理功能可以帮助您遵守组织的安全策略。其他工具可以帮助您评估和保护您的模型。
- Azure机器学习中的问责制。机器学习操作(MLOps)基于DevOps原则和实践,可提高人工智能工作流的效率。Azure机器学习可以帮助您实现MLOps功能:
- 注册、打包和部署模型
- 获取有关模型更改的通知和警报
- 捕获端到端生命周期的治理数据
- 监控应用程序的操作问题
此图说明了Azure机器学习的MLOps功能:
描述Azure机器学习的MLOps功能的图表。
潜在用例
您可以将此解决方案应用于以下场景:
- 财务:获取客户的财务分析或客户的交叉销售分析,以进行有针对性的营销活动。
- 医疗保健:使用患者信息作为输入,建议提供治疗方案。
- 好客(款待):创建一个客户档案,为酒店、航班、邮轮套餐和会员资格提供建议。
注意事项
这些注意事项实现了Azure架构良好的框架的支柱,这是一套可用于提高工作负载质量的指导原则。有关详细信息,请参阅Microsoft Azure架构良好的框架。
安全
安全性提供了防止蓄意攻击和滥用您的宝贵数据和系统的保证。有关更多信息,请参阅安全支柱概述。
Azure解决方案提供深度防御和零信任方法。
请考虑在此体系结构中实现以下安全功能:
- Deploy dedicated Azure services into virtual networks
- Azure SQL Database security capabilities
- Secure the credentials in data factory by using Key Vault
- Enterprise security and governance for Azure Machine Learning
- Azure security baseline for Synapse Analytics Workspace
成本优化
成本优化是为了减少不必要的开支和提高运营效率。有关更多信息,请参阅成本优化支柱概述。
若要估计实施此解决方案的成本,请使用Azure定价计算器。
还要考虑这些资源:
卓越运营
卓越运营涵盖了部署应用程序并使其在生产中运行的运营过程。有关更多信息,请参阅卓越运营支柱概述。
机器学习解决方案需要可扩展和标准化,以便于管理和维护。确保您的解决方案通过重新培训周期和自动重新部署模型来支持正在进行的推理。
有关更多信息,请参阅Azure MLOps(v2)解决方案加速器。
性能效率
性能效率是指您的工作负载能够以高效的方式扩展以满足用户对其提出的要求。有关更多信息,请参阅性能效率支柱概述。
- 有关设计可扩展解决方案的更多信息,请参阅性能效率检查表。
- 有关受监管行业的信息,请参阅受监管行业中的大规模人工智能和机器学习计划。
- 使用SQL、Spark或无服务器SQL池管理Azure Synapse Analytics环境。
Next steps
- Azure security baseline for Azure Machine Learning
- Azure Synapse Analytics
- Deploy machine learning models to Azure
- What is Responsible AI?
Related resources
- 登录 发表评论
- 5 次浏览
最新内容
- 1 day 18 hours ago
- 1 day 20 hours ago
- 1 day 20 hours ago
- 4 days 12 hours ago
- 4 days 19 hours ago
- 4 days 20 hours ago
- 4 days 20 hours ago
- 4 days 20 hours ago
- 1 week 2 days ago
- 1 week 2 days ago