category
通过请求负载平衡扩展消费者:企业在创建GenAI网关时遇到的一个独特问题是,在TPM和RPM有限制的情况下,增加消费者的数量。以下是可能发生的一些情况,以及可以在GenAI网关上应用的一些可能的解决方案。
1.多个按需付费AOAI实例的负载平衡
支持高消费者并发性:为了适应提出LLM请求的众多消费者,建议将这些消费者隔离到不同的区域。由于Azure OpenAI配额是在区域级别强制执行的,因此在多个区域部署允许这些消费者同时操作。GenAI网关可以通过在不同地区分发请求来促进负载平衡。然而,支持跨区域部署可能会给消费者带来延迟问题。延迟问题可以通过实现区域亲和性来部分缓解,GenAI网关将消费者请求路由到距离请求者最近的区域部署,或者可以通过执行基准测试来识别区域。在基准测试中,理想的做法是模拟请求者的高正常负载,并可以评估哪些OpenAI实例工作良好。
例如,考虑两种情况,第一种情况是单个部署区域,第二种情况是在两个区域中部署。由于配额是按地区分配的,因此在第二种情况下,整体最大RPM更高,如下所示。
Description | Single region deployment | Multi region deployment |
---|---|---|
Total TPM limit | 240,000 | RegionA: 240,000 RegionB: 240,000 |
RPM enforced per 1000 TPM | 6 | RegionA: 6 RegionB: 6 |
Total RPM | 1,440 | RegionA: 1,440 RegionB: 1,440 |
Total RPM across all deployments | 1,440 | 2,880 |
在多区域部署场景中,可以获得更高的吞吐量,从而能够处理更多的并发请求。此外,Azure OpenAI在很短的时间内(1秒或10秒)评估请求。根据这些时段的值,它推断RPM和TPM,并限制溢出请求。通过使用多个部署,可以将负载分布在两个或多个资源上,从而降低了达到部署强制限制的概率。
2.管理带现收现付端点的PTU峰值
与按需付费(PAYG)相比,企业通常选择Azure OpenAI(AOAI)的预配置吞吐量单位(PTU),以获得更稳定和可预测的性能。为了应对消费者需求的突然激增,“溢出”策略可能是有效的。该策略最初涉及将流量路由到启用PTU的部署。在达到PTU限制的情况下,溢出将被重定向到启用TPM(每分钟令牌数)的AOAI端点。此重定向可确保处理所有请求。
如果PTU端点以429作为响应码开始响应,则已达到PTU限制。达到PTU限制也可以通过主动监测PTU利用率来确定。
跨多个Azure OpenAI部署的负载平衡策略
有时,网关会将多个部署确定为潜在目标。当有多个潜在目标时,应用以下任何一种方法来执行消费者请求的负载平衡:
- 轮转/随机:GenAI网关可以配置为使用轮转算法或随机分配来跨多个AOAI部署负载平衡请求。如果每个部署的TPM限制相同,建议使用此方法。
- 加权循环:可以在多个AOAI部署之间对请求进行负载平衡。这是根据每个部署的TPM限制数量完成的。GenAI网关可以配置为为每个AOAI部署分配权重,然后根据权重路由请求。在这种情况下,权重可以是为特定部署分配的TPM。例如,如果PTU内有2个部署,分别分配了80%和20%的令牌,那么分配了20%令牌的部署应该只收到五分之一的呼叫。
- 基于AOAI利用率的动态路由:AOAI指标可用于持续监控AOAI资源的利用率。网关可以使用此数据将请求动态路由到利用率最低的资源。
- 登录 发表评论
- 2 次浏览
最新内容
- 5 hours 48 minutes ago
- 8 hours ago
- 8 hours 21 minutes ago
- 3 days ago
- 3 days 7 hours ago
- 3 days 7 hours ago
- 3 days 8 hours ago
- 3 days 8 hours ago
- 1 week ago
- 1 week ago