【Azure GenAI】使用Azure

语言 Chinese, Simplified

SEO Title

Azure GenAI - Designing and implementing a gateway solution with Azure OpenAI resources - Operational Excellence

1.语境长度和情态

上下文长度是模型可以处理的输入令牌的数量。LLM领域正在迅速发展，其模型可以支持越来越长的上下文长度。上下文长度越长，请求体就越大。除了增加上下文长度外，一些模型还能够处理不同模式的数据。其他模型也可以生成各种数据类型，如图像和视频。

GenAI网关的设计必须考虑到这些进步。它应该有效地管理大型混合内容请求，并支持不同的输出类型，确保在处理复杂的LLM功能时的通用性和稳健性。

2.监测和观测

监控和可观察性对于创建健壮和容错的系统至关重要。在构建GenAI网关时，衡量和监控整体性能是关键。整体性能包括跟踪各个方面。以下是方面的示例：

错误率
请求和响应的总时间
网关层引入的延迟
由于网关和AOAI实例之间的跨区域调用而引入延迟

在设计监控和可观察性之前，需要注意的一些关键方面是：

应该记录什么类型的信息（例如，请求、响应正文/标头信息等）？
我们可以只记录一个采样集，还是必须记录所有请求/响应？
度量/事件收集器引入的时间延迟是什么？关键事件发生与处理器获取它们之间的时间延迟。
下游系统组件如何依赖于这些数据？
- 需要什么级别的数据新鲜度？是否需要接近实时的信息，或者是否可以容忍一些延迟？
- 使用此信息将采取哪些行动，例如缩放、节流，还是用于报告目的？
响应模式是什么？流媒体还是批处理？

本节列出了在与GenAI资源交互时测量指标的不同可能性。

通过Azure monitor获取Azure OpenAI指标：Azure OpenAI服务默认指标可通过Azure monitor获得。使用这些默认指标允许下游系统（例如GenAI网关）访问这些指标以进行以下操作：

执行自定义操作
构建仪表板
设置警报

然而，重要的是要考虑Azure Monitor所涉及的延迟——通常在30秒到15分钟之间——以便消费者获取和使用监控数据。这种延迟因素是实时监控和决策过程中需要考虑的一个关键方面。

通过GenAI网关生成自定义指标和日志：在某些情况下，企业可能需要更多信息，而不仅仅是通过AOAI指标公开的信息。例如，捕获网关引起的延迟和自定义业务指标需要更多信息。此外，下游系统可能需要实时或接近实时的信息来执行以下关键操作：

缩放比例
优化
警报

以下是一些关于如何使用GenAI网关实现监控和可观察性的建议方法：

向实时消息系统发送自定义事件：GenAI网关可以拦截请求或响应，并提取相关信息。相关信息用于创建事件并将其异步推送到实时消息传递系统中。实时消息系统的一些例子是Kafka和Azure EventHub。流式事件聚合器（例如Azure流分析）可以近乎实时地使用这些事件来执行以下活动：
- 填充数据存储
- 仪表板数据
- 根据特定规则触发操作
向指标收集器发送自定义指标：或者，GenAI网关可以向指标收集器（使用时间序列数据库）发送自定义指标以支持特定的业务需求。指标收集器可以为仪表板、警报和其他自定义功能等提供动力。Azure Monitor提供了发布和收集自定义指标的机制。也可以实现像Prometheus这样的开源替代方案，如本文所述。

必须了解，这些自定义指标与AOAI服务生成的指标有很大不同。因此，要仔细评估何时使用至关重要的东西。

有关设计的高级概述，请参阅本节。

3.使用混合LLM

企业中的GenAI网关充当所有GenAI部署的前端。它涵盖了本地数据中心或其他云提供商上的Azure OpenAI和自定义LLM部署。

访问这些不同托管的LLM可能在多个方面有所不同：

消费者身份验证
发射指标(Emitted metrics)
配额管理
延迟要求
内容审核方法

因此，在设计GenAI网关时，考虑到上述方面，了解组织的混合战略至关重要。这种理解将决定网关如何与各种LLM和其他混合服务接口，确保高效和安全的访问，同时满足特定的操作要求。

4.模型版本管理

在LLM快速发展的环境中，在模型版本之间无缝过渡的能力至关重要，原因有几个，比如快速实验、迅速采用尖端的性能改进或安全升级。

GenAI网关应支持模型版本管理，使新的LLM版本能够顺利集成，同时保持消费者应用程序的操作连续性。

网关应促进关键模型版本管理功能的实施，例如：

测试和推出：在更广泛地推出模型更改之前，通常会执行一个全面的测试套件，以确保现有生态系统中新LLM版本的性能、可靠性和兼容性。网关必须通过公开特定于测试的端点来支持这些测试要求，还应促进向一部分消费者进行受控的推广。
易于版本升级和回滚：网关必须具有快速回滚到较新、稳定版本或回滚到以前版本的机制，以应对部署后可能出现的任何关键问题。

5.弹性和容错性

弹性和容错性是任何GenAI网关设计的关键方面。网关的设计应能优雅地处理故障，并确保对消费者应用程序的干扰最小。以下是构建有弹性和容错的GenAI网关的一些关键考虑因素：

退避和重试机制：在网关中实施退避和重试策略可以帮助管理瞬态故障并减少服务中断的影响。网关应该能够根据错误类型和系统上的当前负载智能地重试请求。
备份模型和回退策略：网关应能够在模型故障或服务中断的情况下切换到备份模型或回退策略。这确保了即使在主要型号不可用的情况下，消费者应用程序也能继续运行。
区域故障转移：网关的设计应支持区域故障转移，以确保高可用性和可靠性。如果发生区域中断，网关应能够将流量重定向到其他区域，以尽量减少停机时间。

本文地址

https://architect.pub

登录发表评论
9 次浏览

发布日期

星期日, 十月 6, 2024 - 16:44

最后修改

星期日, 十月 6, 2024 - 16:44

【Azure GenAI】使用Azure OpenAI资源设计和实施网关解决方案:卓越运营

category

1.语境长度和情态

2.监测和观测

3.使用混合LLM

4.模型版本管理

5.弹性和容错性

Tags

最新内容

Content type

Content type

Tags

Tags

category

category

Tags