category
Azure OpenAI为客户提供了适合其业务和使用模式的托管结构选择。该服务提供两种主要类型的部署:标准部署和预置部署。Standard提供全局部署选项,在全球范围内路由流量以提供更高的吞吐量。所有部署都可以执行完全相同的推理操作,但计费、规模和性能却大不相同。作为解决方案设计的一部分,您需要做出两个关键决定:
- 数据驻留需求:全球资源与区域资源
- 调用叫量:标准与预置
全球与区域部署类型
对于标准部署,您可以在资源中选择两种类型的配置——全局或区域。全球标准是推荐的起点。
全球部署利用Azure的全球基础架构,将客户流量动态路由到数据中心,为客户的推理请求提供最佳可用性。这意味着您将在Global获得最高的初始吞吐量限制和最佳的模型可用性,同时仍然提供我们的正常运行时间SLA和低延迟。对于高于指定使用级别的高工作量,您可能会遇到延迟变化增加的情况。对于在大工作负载使用情况下需要较低延迟差异的客户,我们建议购买配置的吞吐量。
我们的全球部署将是所有新型号和功能的第一个地点。有非常大吞吐量要求的客户应该考虑我们的预配置部署产品。
部署类型
Azure OpenAI提供三种类型的部署。这些提供了不同级别的功能,在吞吐量、SLA和价格方面进行了权衡。以下是对选项的总结,然后对每个选项进行了更深入的描述。
Offering | Global-Batch | Global-Standard | Standard | Provisioned |
---|---|---|---|---|
Best suited for | Offline scoring Workloads that are not latency sensitive and can be completed in hours. For use cases that do not have data processing residency requirements. |
Recommended starting place for customers. Global-Standard will have the higher default quota and larger number of models available than Standard. |
For customers with data residency requirements. Optimized for low to medium volume. | Real-time scoring for large consistent volume. Includes the highest commitments and limits. |
How it works | Offline processing via files | Traffic may be routed anywhere in the world | ||
Getting started | Global-Batch | Model deployment | Model deployment | Provisioned onboarding |
Cost | Least expensive option 50% less cost compared to Global Standard prices. Access to all new models with larger quota allocations. |
Global deployment pricing | Regional pricing | May experience cost savings for consistent usage |
What you get | Significant discount compared to Global Standard | Easy access to all new models with highest default pay-per-call limits. Customers with high volume usage may see higher latency variability |
Easy access with SLA on availability. Optimized for low to medium volume workloads with high burstiness. Customers with high consistent volume may experience greater latency variability. |
Regional access with very high & predictable throughput. Determine throughput per PTU using the provided capacity calculator |
What you don’t get | ❌Real-time call performance ❌Data processing guarantee Data stored at rest remains in the designated Azure geography, while data may be processed for inferencing in any Azure OpenAI location. Learn more about data residency |
❌Data processing guarantee Data stored at rest remains in the designated Azure geography, while data may be processed for inferencing in any Azure OpenAI location. Learn more about data residency |
❌High volume w/consistent low latency | ❌Pay-per-call flexibility |
Per-call Latency | Not Applicable (file based async process) | Optimized for real-time calling & low to medium volume usage. Customers with high volume usage may see higher latency variability. Threshold set per model | Optimized for real-time calling & low to medium volume usage. Customers with high volume usage may see higher latency variability. Threshold set per model | Optimized for real-time. |
Sku Name in code | GlobalBatch |
GlobalStandard |
Standard |
ProvisionedManaged |
Billing model | Pay-per-token | Pay-per-token | Pay-per-token | Monthly Commitments |
预分配的
预配置部署允许您指定部署中所需的吞吐量。然后,该服务会分配必要的模型处理能力,并确保为您做好准备。吞吐量是根据配置的吞吐量单位(PTU)来定义的,这是一种表示部署吞吐量的标准化方式。每个模型版本对都需要不同数量的PTU来部署,并为每个PTU提供不同数量的吞吐量。从我们的Provisioned吞吐量概念文章中了解更多信息。
标准
标准部署在所选模型上提供按呼叫付费计费模型。提供最快的入门方式,因为您只需为所消费的东西付费。每个地区可用的型号和吞吐量可能有限。
标准部署针对具有高突发性的中低容量工作负载进行了优化。具有高一致容量的客户可能会遇到更大的延迟变化。
全球标准
重要事项静态存储的数据保留在指定的Azure地理位置,而数据可以在任何Azure OpenAI位置进行处理以进行推断。了解有关数据驻留的更多信息。
全局部署与非全局部署类型在相同的Azure OpenAI资源中可用,但允许您利用Azure的全局基础架构将流量动态路由到数据中心,并为每个请求提供最佳可用性。全局标准提供了最高的默认配额,并消除了跨多个资源进行负载平衡的需要。
具有高一致容量的客户可能会遇到更大的延迟变化。阈值按型号设置。请参阅配额页面以了解更多信息。对于在大工作负载使用情况下需要较低延迟差异的应用程序,我们建议购买配置的吞吐量。
全球批次
重要事项静态存储的数据保留在指定的Azure地理位置,而数据可以在任何Azure OpenAI位置进行处理以进行推断。了解有关数据驻留的更多信息。
全局批处理旨在高效地处理大规模和高容量的处理任务。使用单独的配额处理异步请求组,目标周转时间为24小时,成本比全球标准低50%。通过批处理,您可以在单个文件中发送大量请求,而不是一次发送一个请求。全局批处理请求有一个单独的排队令牌配额,避免对您的在线工作负载造成任何中断。
关键用例包括:
- 大规模数据处理:快速并行分析大量数据集。
- 内容生成:创建大量文本,如产品描述或文章。
- 文档审查和总结:自动审查和总结长篇文档。
- 客户支持自动化:同时处理多个查询,以获得更快的响应。
- 数据提取和分析:从大量非结构化数据中提取和分析信息。
- 自然语言处理(NLP)任务:在大型数据集上执行情感分析或翻译等任务。
- 营销和个性化:大规模生成个性化内容和推荐。
如何在订阅中禁用对全局部署的访问
Azure策略有助于执行组织标准并大规模评估合规性。通过其合规性仪表板,它提供了一个聚合视图来评估环境的整体状态,并能够深入到每个资源、每个策略的粒度。它还有助于通过对现有资源的批量修复和对新资源的自动修复,使您的资源达到合规性。了解有关Azure策略和AI服务的特定内置控件的更多信息。
您可以使用以下策略禁用对Azure OpenAI全局标准部署的访问。
JSON
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
部署模型
屏幕截图显示了Azure OpenAI Studio中的模型部署对话框,突出显示了三种部署类型。
要了解如何创建资源和部署模型,请参阅资源创建指南。
另请参见
- 登录 发表评论
- 43 次浏览
Tags
最新内容
- 2 days ago
- 2 days 2 hours ago
- 2 days 2 hours ago
- 4 days 18 hours ago
- 5 days 2 hours ago
- 5 days 2 hours ago
- 5 days 2 hours ago
- 5 days 2 hours ago
- 1 week 2 days ago
- 1 week 2 days ago