跳转到主要内容

热门内容

今日:


总体:


最近浏览:


Chinese, Simplified

category

Azure OpenAI为客户提供了适合其业务和使用模式的托管结构选择。该服务提供两种主要类型的部署:标准部署和预置部署。Standard提供全局部署选项,在全球范围内路由流量以提供更高的吞吐量。所有部署都可以执行完全相同的推理操作,但计费、规模和性能却大不相同。作为解决方案设计的一部分,您需要做出两个关键决定:

  • 数据驻留需求:全球资源与区域资源
  • 调用叫量:标准与预置


全球与区域部署类型


对于标准部署,您可以在资源中选择两种类型的配置——全局或区域。全球标准是推荐的起点。

全球部署利用Azure的全球基础架构,将客户流量动态路由到数据中心,为客户的推理请求提供最佳可用性。这意味着您将在Global获得最高的初始吞吐量限制和最佳的模型可用性,同时仍然提供我们的正常运行时间SLA和低延迟。对于高于指定使用级别的高工作量,您可能会遇到延迟变化增加的情况。对于在大工作负载使用情况下需要较低延迟差异的客户,我们建议购买配置的吞吐量。

我们的全球部署将是所有新型号和功能的第一个地点。有非常大吞吐量要求的客户应该考虑我们的预配置部署产品。

部署类型


Azure OpenAI提供三种类型的部署。这些提供了不同级别的功能,在吞吐量、SLA和价格方面进行了权衡。以下是对选项的总结,然后对每个选项进行了更深入的描述。

Offering Global-Batch Global-Standard Standard Provisioned
Best suited for Offline scoring

Workloads that are not latency sensitive and can be completed in hours.

For use cases that do not have data processing residency requirements.
Recommended starting place for customers.

Global-Standard will have the higher default quota and larger number of models available than Standard.
For customers with data residency requirements. Optimized for low to medium volume. Real-time scoring for large consistent volume. Includes the highest commitments and limits.
How it works Offline processing via files Traffic may be routed anywhere in the world    
Getting started Global-Batch Model deployment Model deployment Provisioned onboarding
Cost Least expensive option
50% less cost compared to Global Standard prices. Access to all new models with larger quota allocations.
Global deployment pricing Regional pricing May experience cost savings for consistent usage
What you get Significant discount compared to Global Standard Easy access to all new models with highest default pay-per-call limits.

Customers with high volume usage may see higher latency variability
Easy access with SLA on availability. Optimized for low to medium volume workloads with high burstiness.

Customers with high consistent volume may experience greater latency variability.
Regional access with very high & predictable throughput. Determine throughput per PTU using the provided capacity calculator
What you don’t get ❌Real-time call performance

❌Data processing guarantee

Data stored at rest remains in the designated Azure geography, while data may be processed for inferencing in any Azure OpenAI location. Learn more about data residency
❌Data processing guarantee

Data stored at rest remains in the designated Azure geography, while data may be processed for inferencing in any Azure OpenAI location. Learn more about data residency
❌High volume w/consistent low latency ❌Pay-per-call flexibility
Per-call Latency Not Applicable (file based async process) Optimized for real-time calling & low to medium volume usage. Customers with high volume usage may see higher latency variability. Threshold set per model Optimized for real-time calling & low to medium volume usage. Customers with high volume usage may see higher latency variability. Threshold set per model Optimized for real-time.
Sku Name in code GlobalBatch GlobalStandard Standard ProvisionedManaged
Billing model Pay-per-token Pay-per-token Pay-per-token Monthly Commitments

 

预分配的


预配置部署允许您指定部署中所需的吞吐量。然后,该服务会分配必要的模型处理能力,并确保为您做好准备。吞吐量是根据配置的吞吐量单位(PTU)来定义的,这是一种表示部署吞吐量的标准化方式。每个模型版本对都需要不同数量的PTU来部署,并为每个PTU提供不同数量的吞吐量。从我们的Provisioned吞吐量概念文章中了解更多信息。

标准


标准部署在所选模型上提供按呼叫付费计费模型。提供最快的入门方式,因为您只需为所消费的东西付费。每个地区可用的型号和吞吐量可能有限。

标准部署针对具有高突发性的中低容量工作负载进行了优化。具有高一致容量的客户可能会遇到更大的延迟变化。

全球标准


重要事项

静态存储的数据保留在指定的Azure地理位置,而数据可以在任何Azure OpenAI位置进行处理以进行推断。了解有关数据驻留的更多信息。

全局部署与非全局部署类型在相同的Azure OpenAI资源中可用,但允许您利用Azure的全局基础架构将流量动态路由到数据中心,并为每个请求提供最佳可用性。全局标准提供了最高的默认配额,并消除了跨多个资源进行负载平衡的需要。

具有高一致容量的客户可能会遇到更大的延迟变化。阈值按型号设置。请参阅配额页面以了解更多信息。对于在大工作负载使用情况下需要较低延迟差异的应用程序,我们建议购买配置的吞吐量。

全球批次


重要事项

静态存储的数据保留在指定的Azure地理位置,而数据可以在任何Azure OpenAI位置进行处理以进行推断。了解有关数据驻留的更多信息。

全局批处理旨在高效地处理大规模和高容量的处理任务。使用单独的配额处理异步请求组,目标周转时间为24小时,成本比全球标准低50%。通过批处理,您可以在单个文件中发送大量请求,而不是一次发送一个请求。全局批处理请求有一个单独的排队令牌配额,避免对您的在线工作负载造成任何中断。

关键用例包括:

  • 大规模数据处理:快速并行分析大量数据集。
  • 内容生成:创建大量文本,如产品描述或文章。
  • 文档审查和总结:自动审查和总结长篇文档。
  • 客户支持自动化:同时处理多个查询,以获得更快的响应。
  • 数据提取和分析:从大量非结构化数据中提取和分析信息。
  • 自然语言处理(NLP)任务:在大型数据集上执行情感分析或翻译等任务。
  • 营销和个性化:大规模生成个性化内容和推荐。

如何在订阅中禁用对全局部署的访问


Azure策略有助于执行组织标准并大规模评估合规性。通过其合规性仪表板,它提供了一个聚合视图来评估环境的整体状态,并能够深入到每个资源、每个策略的粒度。它还有助于通过对现有资源的批量修复和对新资源的自动修复,使您的资源达到合规性。了解有关Azure策略和AI服务的特定内置控件的更多信息。

您可以使用以下策略禁用对Azure OpenAI全局标准部署的访问。

JSON

{
   "mode": "All",
   "policyRule": {
       "if": {
           "allOf": [
               {
                   "field": "type",
                   "equals": "Microsoft.CognitiveServices/accounts/deployments"
               },
               {
                   "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                   "equals": "GlobalStandard"
               }
           ]
       }
   }
}


部署模型


屏幕截图显示了Azure OpenAI Studio中的模型部署对话框,突出显示了三种部署类型。

要了解如何创建资源和部署模型,请参阅资源创建指南。

另请参见

本文地址
最后修改
星期二, 九月 17, 2024 - 22:23
Article