跳转到主要内容

热门内容

今日:


总体:


最近浏览:


Chinese, Simplified

1.PTU的有效利用


Azure OpenAI Sizing工具可帮助企业根据自身需求规划其Azure OpenAI(AOAI)容量。他们可以通过采购预留吞吐量单位(PTU)来获得更可预测的AOAI性能,这需要预付款和预留AOAI配额。然而,如果这种预留容量仍未得到充分利用,可能会导致资源分配效率低下和财务开销。

为了减轻这种低效,可以使用以下方法:

  • 使用溢出策略来控制成本:实施溢出策略允许企业在将多余流量路由到按需付费(PAYG)端点之前,首先利用预先购买的PTU。通过这种方法,PTU容量可以低于所需的峰值容量,从而能够使用较低的PTU容量。这里详细介绍了这项技术。
  • 全天候有效消耗PTU:通过将消费者分为实时和批量(计划/按需),并应用上述监控方法,可以协调PTU的利用率。在此编排中,批处理消费者仅在PTU端点未得到充分利用时才使用PTU。

2.跟踪消费者层面的资源消耗


在大型企业设置中,运营成本通过退款模式在不同的业务部门之间分担。对于GenAI资源,此跟踪涉及以下操作:

  • 在PTU(预留容量)和TPM(现收现付)配额下测量每位消费者的消耗量
  • 为业务部门(BU)提供透明的成本报告、配额分配与消耗报告以及成本归因功能。


在AOAI领域,消费跟踪的方法取决于与AOAI服务的交互模式。

批处理模式:

批处理模式包括以下步骤:

  • 一次性发送一组输入
  • 在模型处理完整个批次后接收输出


在此模式下,作为响应体的一部分返回的使用信息包含处理该请求时消耗的令牌总数。

Azure OpenAI完成端点的使用负载示例:

JSON

"usage": {
 "prompt_tokens": 14,
 "completion_tokens": 436,
 "total_tokens": 450
 }


使用监控部分中讨论的技术,GenAI网关可以配置为在消费者级别解析和记录此有效载荷。可以聚合消费者级别的有效载荷信息,以构建每个消费者在特定时间间隔内的令牌消费视图。

流媒体模式:

在流模式下,AOAI不会将使用统计数据作为响应块的一部分返回。如果我们需要计算令牌,那么可以应用以下方法。

  • 测量提示令牌:必须使用tiktoken等库从请求中计算提示令牌的数量。
  • 测量完成标记:流中的事件数量应表示响应中的标记数量,因此只需在迭代和流式传输响应时对其进行计数。

总令牌是提示令牌和完成令牌的总和。令牌总数仍然是一个近似值,因为不能保证响应的每个块都只有一个令牌。

 

本文地址
最后修改
星期日, 十月 6, 2024 - 16:47
Article