【Azure GenAI】使用Azure

语言 Chinese, Simplified

SEO Title

Azure GenAI - Designing and implementing a gateway solution with Azure OpenAI resources -Scalability

1.多个按需付费AOAI实例的负载平衡

支持高消费者并发性：为了适应提出LLM请求的众多消费者，建议将这些消费者隔离到不同的区域。由于Azure OpenAI配额是在区域级别强制执行的，因此在多个区域部署允许这些消费者同时操作。GenAI网关可以通过在不同地区分发请求来促进负载平衡。然而，支持跨区域部署可能会给消费者带来延迟问题。延迟问题可以通过实现区域亲和性来部分缓解，GenAI网关将消费者请求路由到距离请求者最近的区域部署，或者可以通过执行基准测试来识别区域。在基准测试中，理想的做法是模拟请求者的高正常负载，并可以评估哪些OpenAI实例工作良好。

例如，考虑两种情况，第一种情况是单个部署区域，第二种情况是在两个区域中部署。由于配额是按地区分配的，因此在第二种情况下，整体最大RPM更高，如下所示。

Description	Single region deployment	Multi region deployment
Total TPM limit	240,000	RegionA: 240,000 RegionB: 240,000
RPM enforced per 1000 TPM	6	RegionA: 6 RegionB: 6
Total RPM	1,440	RegionA: 1,440 RegionB: 1,440
Total RPM across all deployments	1,440	2,880

在多区域部署场景中，可以获得更高的吞吐量，从而能够处理更多的并发请求。此外，Azure OpenAI在很短的时间内（1秒或10秒）评估请求。根据这些时段的值，它推断RPM和TPM，并限制溢出请求。通过使用多个部署，可以将负载分布在两个或多个资源上，从而降低了达到部署强制限制的概率。

2.管理带现收现付端点的PTU峰值

与按需付费（PAYG）相比，企业通常选择Azure OpenAI（AOAI）的预配置吞吐量单位（PTU），以获得更稳定和可预测的性能。为了应对消费者需求的突然激增，“溢出”策略可能是有效的。该策略最初涉及将流量路由到启用PTU的部署。在达到PTU限制的情况下，溢出将被重定向到启用TPM（每分钟令牌数）的AOAI端点。此重定向可确保处理所有请求。

如果PTU端点以429作为响应码开始响应，则已达到PTU限制。达到PTU限制也可以通过主动监测PTU利用率来确定。

跨多个Azure OpenAI部署的负载平衡策略

有时，网关会将多个部署确定为潜在目标。当有多个潜在目标时，应用以下任何一种方法来执行消费者请求的负载平衡：

轮转/随机：GenAI网关可以配置为使用轮转算法或随机分配来跨多个AOAI部署负载平衡请求。如果每个部署的TPM限制相同，建议使用此方法。
加权循环：可以在多个AOAI部署之间对请求进行负载平衡。这是根据每个部署的TPM限制数量完成的。GenAI网关可以配置为为每个AOAI部署分配权重，然后根据权重路由请求。在这种情况下，权重可以是为特定部署分配的TPM。例如，如果PTU内有2个部署，分别分配了80%和20%的令牌，那么分配了20%令牌的部署应该只收到五分之一的呼叫。
基于AOAI利用率的动态路由：AOAI指标可用于持续监控AOAI资源的利用率。网关可以使用此数据将请求动态路由到利用率最低的资源。

本文地址

https://architect.pub