跳转到主要内容
Chinese, Simplified

category

现代企业拥有丰富的数据,涵盖多种形式——从文本文档和PDF到演示幻灯片、图像、录音等。想象一下,向人工智能助理询问你公司的季度电话财报会议:助理不仅应该阅读成绩单,还应该“看到”演示幻灯片中的图表,并“听到”首席执行官的讲话。Gartner预测,到2027年,40%的生成式人工智能解决方案将是多模式的(文本、图像、音频、视频),而2023年这一比例仅为1%。这一转变突显了多模态理解对业务应用程序的重要性。实现这一目标需要一个多模式生成的人工智能助手——一个可以理解和组合文本、视觉和其他数据类型的助手。它还需要一个代理架构,这样人工智能助手就可以主动检索信息、计划任务并对工具调用做出决定,而不仅仅是被动地响应提示。

在这篇文章中,我们探索了一种完全做到这一点的解决方案——使用AWS的多模态大型语言模型(LLM)Amazon Nova Pro作为中央编排器,以及强大的Amazon Bedrock新功能,如用于处理多模态数据的Amazon Bedrock Data Automation。我们展示了代理工作流模式,如检索增强生成(RAG)、多工具编排和LangGraph的条件路由,如何实现人工智能和机器学习(AI/ML)开发人员和企业架构师可以采用和扩展的端到端解决方案。我们介绍了一个财务管理人工智能助手的例子,该助手可以通过分析电话财报会议(音频)和演示幻灯片(图像)以及相关的财务数据源,提供定量研究和有根据的财务建议。我们还强调了如何将这种模式应用于金融、医疗保健和制造业等行业。

代理工作流程概述

主体模式的核心由以下几个阶段组成:

  • 原因——代理(通常是LLM)检查用户的请求和当前上下文或状态。它决定了下一步应该做什么——是提供直接答案,还是调用工具或子任务来获取更多信息。
  • 动作——代理执行该步骤。这可能意味着使用Amazon Bedrock Data Automation调用工具或函数,如搜索查询、数据库查找或文档分析。
  • 观察——代理人观察行动的结果。例如,它读取从工具中检索到的文本或数据。
  • 循环——有了新的信息,代理再次推理,决定任务是否完成,或者是否需要下一步。此循环将继续,直到代理确定它可以为用户生成最终答案。

这种迭代决策使代理能够处理无法通过单个提示完成的复杂请求。然而,实施代理系统可能具有挑战性。它们在控制流中引入了更多的复杂性,天真的代理可能效率低下(进行太多的工具调用或不必要的循环),或者在扩展时难以管理。这就是像LangGraph这样的结构化框架发挥作用的地方。LangGraph使定义具有明确定义的节点(如“报告编写器”或“查询知识库”)和边(允许的转换)的潜在动作的有向图(或状态机)成为可能。尽管代理的内部推理仍然决定采取哪条路径,但LangGraph确保该过程保持可管理和透明。这种可控的灵活性意味着助手有足够的自主权来处理各种任务,同时确保整体工作流程稳定且可预测。

解决方案概述

该解决方案是一个财务管理人工智能助手,旨在帮助分析师查询投资组合、分析公司和生成报告。其核心是Amazon Nova,这是一种LLM,可以作为推理的智能LLM。Amazon Nova处理文本、图像或文档(如电话财报会议幻灯片),并动态决定使用哪些工具来满足请求。Amazon Nova针对企业任务进行了优化,并支持函数调用,因此该模型可以以结构化的方式计划操作和调用工具。它有一个大的上下文窗口(在Amazon Nova Lite和Amazon Nova Pro中最多有300000个令牌),可以在推理时管理长文档或对话历史。

工作流程由以下关键组件组成:

  • 知识库检索——电话财报会议音频文件和PowerPoint文件都由Amazon Bedrock Data Automation处理,这是一项管理服务,可提取文本、转录音频和视频,并准备数据进行分析。如果用户上传PowerPoint文件,系统会将每张幻灯片转换为图像(PNG),以便进行高效的搜索和分析,这是一种受Manus等生成式AI应用程序启发的技术。亚马逊基岩数据自动化实际上是一个开箱即用的多模式人工智能管道。在我们的架构中,Amazon Bedrock Data Automation充当原始数据和代理工作流之间的桥梁。然后,亚马逊基岩知识库使用亚马逊Titan文本嵌入V2将从亚马逊基岩数据自动化中提取的这些块转换为向量嵌入,并将这些向量存储在亚马逊OpenSearch无服务器数据库中。
  • 路由器代理——当用户提出问题时——例如,“总结第三季度收益报告中的主要风险”——亚马逊Nova首先确定任务是否需要检索数据、处理文件或生成响应。它维护对话的记忆,解释用户的请求,并计划采取哪些行动来实现它。解决方案图中的“记忆和计划”模块表明,路由器代理可以使用对话历史和思维链(CoT)提示来确定下一步。至关重要的是,路由器代理确定查询是否可以用公司内部数据来回答,或者是否需要外部信息和工具。
  • 多模式RAG代理-对于与音频和视频信息相关的查询,Amazon Bedrock Data Automation使用统一的API调用从此类多媒体数据中提取见解,并将提取的见解存储在Amazon Bedrock知识库中。Amazon Nova使用Amazon基岩知识库通过语义搜索检索事实答案。这确保了反应基于真实数据,最大限度地减少了幻觉。如果Amazon Nova生成了答案,则会进行二次幻觉检查,将响应与可信来源进行交叉引用,以捕捉不受支持的声明。
  • 幻觉检查(质量门)-为了进一步验证可靠性,工作流程可以包括一个后处理步骤,使用Amazon Nova家族之外的不同基础模型(FM),如Anthropic的Claude、Mistral或Meta的Llama,对答案的可信度进行评分。例如,在Amazon Nova生成响应后,幻觉检测器模型或函数可以将答案与检索到的来源或已知事实进行比较。如果检测到潜在的幻觉(参考数据不支持答案),代理可以选择进行额外的检索、调整答案或升级到人类。
  • 多工具协作——这种多工具协作使人工智能不仅可以找到信息,还可以在制定最终答案之前采取行动。这引入了多工具选项。监管代理可能会生成或协调多个特定于工具的代理(例如,一个进行一般网络搜索的网络搜索代理,一个获取市场数据的股票搜索代理,或其他用于公司财务指标或行业新闻的专业代理)。每个代理执行一个集中的任务(可以调用API或在互联网上执行查询),并将结果返回给主管代理。Amazon Nova Pro具有强大的推理能力,允许主管代理合并这些发现。这种多代理方法遵循在专业代理之间划分复杂任务的原则,提高了复杂查询的效率和可靠性。
  • 报告创建代理——架构中另一个值得注意的方面是使用Amazon Nova Canvas进行输出生成。Amazon Nova Canvas是Amazon Nova家族中的一种专用图像生成模型,但在这种情况下,我们更形象地使用“画布”的概念来表示结构化模板或格式生成的内容输出。例如,我们可以为助理填写的“投资者报告”定义一个模板:第1节:关键亮点(要点),第2节:财务摘要(图表),第3节:重要报价,等等。代理可以通过向Amazon Nova提供包含所需格式的系统提示来指导其填充此类模板(这类似于给出布局的少数镜头提示)。结果是,助手不仅可以回答特别的问题,还可以生成全面的生成报告,这些报告看起来就像是由人类分析师准备的,结合了文本、图像和视觉参考。

这些组件在代理工作流中进行编排。该解决方案使用动态决策图(使用笔记本解决方案中的开源LangGraph库实现)在步骤之间进行路由,而不是使用固定脚本。其结果是,一名助手感觉不太像聊天机器人,更像是一名合作分析人员,可以分析电话财报会议录音,评论幻灯片,或在最少的人工干预下起草投资者备忘录。

下图显示了代理AI工作流的高级架构。Amazon Nova编排了各种工具,包括用于文档和图像处理的Bedrock Amazon Data Automation以及用于检索的知识库,以满足复杂的用户请求。为简洁起见,我们不在这里列出所有代码;GitHub仓库包括一个完整的工作示例。开发人员可以运行该程序来查看代理的运行情况,并使用自己的数据对其进行扩展。


Example of the multi-tool collaboration workflow

To demonstrate the multi-tool collaboration agent workflow, we explore an example of how a question-answer interaction might flow through our deployed system for multi-tool collaboration:

  • User prompt – In the chat UI, the end-user asks a question, such as “What is XXX’s stock performance this year, and how does it compare to its rideshare‑industry peers?”
  • Agent initial response – The agent (Amazon Nova FM orchestrator) receives the question and responds with:

    Received your question. Routing to the reasoning engine…
  • Planning and tool selection – The agent determines that it needs the following:
    • The ticker symbol for the company (XXX)
    • Real‑time stock price and YTD changes
    • Key financial metrics (revenue, net income, price-earnings ratio)
    • Industry benchmarks (peer YTD performance, average revenue growth)
  • Planning execution using tool calls – The agent calls tools to perform the following actions:
    • Look up ticker symbol:

      Agent → WebSearchTool.lookupTicker("XXX Inc")
      WebSearchTool → Agent: returns "XXX"
    • Fetch real‑time stock performance using the retrieved ticker symbol:

      Agent → StockAnalysisTool.getPerformance(
       symbol="XXX",
       period="YTD"
       )
      StockAnalysisTool → Agent:
       {
       currentPrice: 
       ytdChange: 
       52wkRange: 
       volume: 
       }
    • Retrieve company financial metrics using the retrieved ticker symbol:

      Agent → CompanyFinancialAnalysisTool.getMetrics("UBER")
      CompanyFinancialAnalysisTool → Agent:
       {
       revenueQ4_2024: xxx B,
       netIncomeQ4_2024: xxx M,
       peRatio: xxx
       }
    • Gather industry benchmark data using the retrieved ticker symbol:

      Agent → IndustryAnalysisTool.comparePeers(
       symbol="XXX",
       sector="Rideshare"
       )
      IndustryAnalysisTool → Agent:
       {
       avgPeerYTD:
       avgRevenueGrowth: 
       }
    • Validation loop – The agent runs a validation loop:

      Agent: validate()
       ↳ Are all four data points present?
       • Ticker :heavy_check_mark: 
       • Stock performance :heavy_check_mark: 
       • Financial metrics :heavy_check_mark: 
       • Industry benchmark :heavy_check_mark: 
       ↳ All set—no retry needed.

If anything is missing or a tool encountered an error, the FM orchestrator triggers the error handler (up to three retries), then resumes the plan at the failed step.

  • Synthesis and final answer – The agent uses Amazon Nova Pro to synthesize the data points and generate final answers based on these data points.

The following figure shows a flow diagram of this multi-tool collaboration agent.


Benefits of using Amazon Bedrock for scalable generative AI agent workflows

This solution is built on Amazon Bedrock because AWS provides an integrated ecosystem for building such sophisticated solutions at scale:

  • Amazon Bedrock delivers top-tier FMs like Amazon Nova, with managed infrastructure—no need for provisioning GPU servers or handling scaling complexities.
  • Amazon Bedrock Data Automation offers an out-of-the-box solution to process documents, images, audio, and video into actionable data. Amazon Bedrock Data Automation can convert presentation slides to images, convert audio to text, perform OCR, and generate textual summaries or captions that are then indexed in an Amazon Bedrock knowledge bases.
  • Amazon Bedrock Knowledge Bases can store embeddings from unstructured data and support retrieval operations using similarity search.
  • In addition to LangGraph (as shown in this solution), you can also use Amazon Bedrock Agents to develop agentic workflows. Amazon Bedrock Agents simplifies the configuration of tool flows and action groups, so you can declaratively manage your agentic workflows.
  • Applications developed by open source frameworks like LangGraph (an extension of LangChain) can also run and scale with AWS infrastructure such as Amazon Elastic Compute Cloud (Amazon EC2) or Amazon SageMaker instances, so you can define directed graphs for agent orchestration, making it effortless to manage multi-step reasoning and tool chaining.

You don’t need to assemble a dozen disparate systems; AWS provides an integrated network for generative AI workflows.

Considerations and customizations

The architecture demonstrates exceptional flexibility through its modular design principles. At its core, the system uses Amazon Nova FMs, which can be selected based on task complexity. Amazon Nova Micro handles straightforward tasks like classification with minimal latency. Amazon Nova Lite manages moderately complex operations with balanced performance, and Amazon Nova Pro excels at sophisticated tasks requiring advanced reasoning or generating comprehensive responses.

The modular nature of the solution (Amazon Nova, tools, knowledge base, and Amazon Bedrock Data Automation) means each piece can be swapped or adjusted without overhauling the whole system. Solution architects can use this reference architecture as a foundation, implementing customizations as needed. You can seamlessly integrate new capabilities through AWS Lambda functions for specialized operations, and the LangGraph orchestration enables dynamic model selection and sophisticated routing logic. This architectural approach makes sure the system can evolve organically while maintaining operational efficiency and cost-effectiveness.

Bringing it to production requires thoughtful design, but AWS offers scalability, security, and reliability. For instance, you can secure the knowledge base content with encryption and access control, integrate the agent with AWS Identity and Access Management (IAM) to make sure it only performs allowed actions (for example, if an agent can access sensitive financial data, verify it checks user permissions ), and monitor the costs (you can track Amazon Bedrock pricing and tools usage; you might use Provisioned Throughput for consistent high-volume usage). Additionally, with AWS, you can scale from an experiment in a notebook to a full production deployment when you’re ready, using the same building blocks (integrated with proper AWS infrastructure like Amazon API Gateway or Lambda, if deploying as a service).

可以从该解决方案中受益的垂直行业

我们描述的架构相当笼统。让我们简要看看这种多模式代理工作流程如何在不同行业中推动价值:

  • 金融服务——在金融领域,该解决方案集成了多媒体RAG,将电话财报会议会议记录、演示幻灯片(转换为可搜索的图像)和实时市场信息统一到一个单一的分析框架中。多阶段协作使Amazon Nova能够协调Amazon Bedrock Data Automation等工具,用于幻灯片文本提取、监管文件的语义搜索,以及用于趋势检测的实时数据API。这使得该系统能够生成可操作的见解,例如识别投资组合风险或建议行业再平衡,同时自动化投资者报告或交易审批的内容创建(在人工监督下)。通过模仿分析师交叉引用数据类型的能力,人工智能助手将零散的输入转化为连贯的策略。
  • 医疗保健-医疗保健工作流程使用多媒体RAG来处理临床记录、实验室PDF和X射线,将同行评审文献和患者音频访谈中的回复作为基础。多代理协作在分流等场景中表现出色:Amazon Nova解释症状描述,Amazon Bedrock Data Automation从扫描文档中提取文本,集成API检查药物相互作用,同时根据可信来源验证输出。内容创建范围从简洁的患者总结(“重症肺炎,用左氧氟沙星治疗”)到复杂问题的循证答案,如总结糖尿病指南。该架构严格的幻觉检查和源引用支持可靠性,这对于维持对医疗决策的信任至关重要。
  • 制造业——工业团队使用多媒体RAG来索引设备手册、传感器日志、工人音频对话和示意图,从而实现快速故障排除。多代理协作允许Amazon Nova将传感器异常与手动摘录相关联,Amazon Bedrock Data Automation在技术图纸中突出显示故障部件。该系统生成维修指南(例如,“更换示意图中的阀门第4部分”)或结合历史维护数据,弥合资深专业知识和新技术人员之间的差距。通过将文本、图像和时间序列数据统一为可操作的内容,该助手减少了停机时间并保留了机构知识——证明即使在以硬件为中心的领域,人工智能驱动的见解也可以提高效率。

这些例子突出了一个共同的模式:数据自动化、强大的多模式模型和代理编排的协同作用导致了与人类专家的帮助非常相似的解决方案。金融AI助理像分析师一样交叉检查数字和解释,临床AI助理像勤奋的医生一样关联图像和笔记,工业AI助理像资深工程师一样回忆图表和日志。所有这一切都是由我们构建的底层架构实现的。

结论

只处理一种输入的孤立人工智能模型的时代即将结束。正如我们所讨论的,将多模式人工智能与代理工作流相结合,为企业应用程序解锁了新的能力水平。在这篇文章中,我们演示了如何使用AWS服务构建这样一个工作流:我们使用Amazon Nova作为核心AI编排器,具有多模式、对代理友好的功能,Amazon Bedrock Data Automation将复杂数据(文档、幻灯片、音频)的摄取和索引自动化到Amazon Bedrock知识库中,以及用于推理和条件的代理工作流图的概念(使用LangChain或LangGraph)来编排多步推理和工具使用。最终的结果是一个人工智能助手,它的运作方式很像一个勤奋的分析师:研究、交叉检查多个来源,并提供见解——但速度和规模都是机器。该解决方案表明,构建一个复杂的代理人工智能系统不再是一个学术梦想,而是用当今的AWS技术实现的。通过使用Amazon Nova作为强大的多模式LLM和用于多模式数据处理的Amazon Bedrock Data Automation,以及LangGraph(或Amazon Bedrock Agents)等工具编排框架,开发人员可以领先一步。许多挑战(如OCR、文档解析或会话编排)都由这些托管服务或库处理,因此您可以专注于业务逻辑和特定领域的需求。

BDA_nova_agentic示例笔记本中提出的解决方案是尝试这些想法的一个很好的起点。我们鼓励您尝试、扩展它,并根据您组织的需求量身定制它。我们很高兴看到你将构建什么——这里讨论的技术只代表了当你结合模态和智能代理时可能实现的一小部分。

本文地址
最后修改
星期一, 九月 22, 2025 - 16:00
Tags
 
Article