category
没有一家公司愿意将资源投入到软件开发中,结果却因为人工智能的普遍进步而变得无关紧要…
每个人都在试图破解代码……下一个利用语言模型的大框架是什么?
初创企业面临的危险是把一切都押在单一方面,比如RAG(检索增强代)或我们过去看到的快速工程。
但为未来做准备的最佳方法不是挑选一个赢家…
这是关于建立适应性强、集成的系统,可以随着景观而发展。
公司应该投资于结合多种人工智能功能的灵活框架,使其能够随着新技术的出现而调整方向,而不会陷入单一的、可能转瞬即逝的趋势。
避免过度依赖
下图显示了GPT-3等技术如何早期飙升(2021年达到50),但逐渐衰落(到2025年降至20),而RAG和代理工作流正在激增(到2025年底分别接近80和60)。押注其中一种可能会被淘汰。
问题优先关注
构建满足真实用户需求和市场需求的解决方案,而不仅仅是最热门的人工智能趋势。
面向未来
适应性强的系统可以整合不断上升的趋势。
AI代理推进领域
人工智能代理正受益于标准化的架构和增强的基本功能,如语言理解和任务自动化。
这些改进是由基础人工智能技术的广泛采用和研究推动的。
滞后元素
- 开发人员工具:虽然存在通用框架,但专门为AI代理开发量身定制的工具(例如,特定于代理的IDE)还不发达。
- 协作环境:人工智能代理与人类实时协同工作的系统尚未成熟。
- 安全和风险合规:确保代理商安全运营和遵守法规的稳健标准和工具滞后。
- 调试和粒度调整:由于复杂人工智能代理的“黑匣子”特性,准确定位和修复其中的问题仍然具有挑战性。
- 可检查性:理解AI Agent为何做出特定决策仍然很困难,这限制了关键应用程序的信任和采用。
在对AI Agent开发人员的形成性访谈中,微软研究院确定了核心挑战:
- 难以审查长时间的AI Agent对话以定位错误
- 当前工具缺乏对交互式调试的支持
- 需要工具支持来迭代AI Agent配置
基于这些需求,Microsoft Research开发了一个交互式多代理调试工具AGDebugger,该工具具有用于浏览和发送消息的UI、编辑和重置先前代理消息的能力,以及用于导航复杂消息历史的概览可视化。
在一项由14名参与者参与的两部分用户研究中,微软研究院确定了指导代理的常见用户策略,并强调了交互式消息重置对调试的重要性。
他们的研究加深了对调试日益重要的代理工作流的接口的理解。
我们如何设计系统,使开发人员能够有效地调试多智能体AI团队?
开发人员在实践中如何使用这样的系统来调试和改进代理工作流程?
一些与会者指出,迭代AI Agent配置目前是一个缓慢而艰巨的过程。
在调试过程中,开发人员通过更改系统提示、在团队中添加或删除AI Agent或更改可用工具的选择来不断调整他们的AI Agent配置。
目前,开发人员必须从头开始重新启动工作流程,以测试任何给定更改的有效性。
在对话后期出现错误的情况下,开发人员必须等待相当长的时间才能观察到任何影响。
此外,由于LLM的随机性,相同的错误可能并不总是发生,需要多次运行才能获得补救的信心。
所有这些都大大减缓了调试过程。
为此,参与者表示希望在关键点“冻结”对话,然后在有问题的上下文被隔离并存储在内存中时迭代潜在的修复方法。
开发人员要求
了解AI代理之间交换的消息。
AI Agent调试工具需要公开AI Agent之间发送的消息,以便用户能够了解对话的细节以及AI Agent如何完成任务。
这对于识别工作流中发生错误的位置非常重要。
打断对话并发送新消息。
用户应该能够在任何时候暂停/中断工作流程,并向AI代理发送新消息。
一旦识别出故障点,用户需要能够重置到工作流中的较早点,以便尝试将代理引导到替代路径。
更改AI代理配置。
AI Agent调试工具应该允许用户更改AI Agent配置,例如使用的提示或模型,以便尝试修复。
(1) 如果我从此处重试工作流,会发生什么?
(2) 如果产生了这种替代信息,会发生什么?
GDebugger帮助用户交互式地调试和指导他们的代理团队。
用户可以交互式地发送新消息,控制消息流,并查看代理消息的历史记录。
用户可以通过重置和编辑消息来恢复到工作流中的早期点
概览可视化帮助用户在交互式可视化中理解长对话和编辑历史。
上面的交互式概述是一个可视化视图,总结了AI Agent对话。
每次重置都会分叉当前对话,并创建一个新的对话会话,表示为一个新列。
用户可以切换消息颜色以表示消息类型、发送者或接收者。悬停时显示消息详细信息,单击可导航到“消息历史记录”视图中的完整消息。
- 登录 发表评论
- 4 次浏览
最新内容
- 13 hours ago
- 16 hours ago
- 3 days 8 hours ago
- 3 days 9 hours ago
- 3 days 9 hours ago
- 3 days 9 hours ago
- 4 days 12 hours ago
- 4 days 16 hours ago
- 1 month 1 week ago
- 1 month 1 week ago