
文章插图
如图 3 所示,BOLAA 有两个主要模块,即分工 agent 池和控制器 。
分工 agent 池管理多个 LAA,每个 LAA 可能只专注于生成一种类型的执行 。例如在网络导航环境中,可以建立点击 LAA 和搜索 LAA 。这样,前者只生成下一个点击按钮,而后者只输出搜索查询,从而将复杂的任务划分为可行的任务 。控制器的设计目的是从 agent 池中有选择地调用 LAA 。
控制器有一个 agent 选择层,用于选择最相关的 LAA 进行调用 。然后,控制器为选定的 LAA 构建信息并建立通信 。从分工 LAA 获得响应后,控制器将其解析为可执行的操作,然后与环境交互 。
请注意,也可以将这些分工 LAA 设计为思考 / 计划 agent 。这样,自我思考和规划工作流也会被保留下来 。
实验结果研究者从两个环境中构建了评估基准,WebShop 和 HotPotQA 以及维基百科 API 的用例 。
关于评估指标,研究者使用每个环境中的奖励得分来评估 LAA 性能 。在 WebShop 环境中,奖励被定义为购买商品与 ground-truth 商品之间的属性重叠率 。在 HotPotQA 环境中,奖励被定义为 agent 答案与 ground-truth 答案之间的 F1 分数分级 。
此外,研究者为 WebShop 环境开发了召回性能,如果在一个任务会话中检索到 ground-truth 项目,召回性能定义为 1;如果没有检索到地面实况项目,召回性能定义为 0 。召回率以 WebShop 环境中所有任务的平均召回分数来报告 。
决策模拟
研究者比较了 WebShop 环境中 LAA 的决策性能 。下表 1 列出了平均奖励方面的表现 。Agent 提示是根据不同 LLM 模型的最大上下文长度构建的 。关于 BOLAA,研究者设计了一个搜索 LAA 和一个点击 LAA,分别生成搜索查询和点击元素 。观察结果如下:

文章插图

文章插图
- 与其他 LAA 架构相比,BOLAA 的性能最佳,尤其是在高性能 LLM 上构建时 。
- 将 LLM 与最佳 LAA 架构配对至关重要 。
- 强大的 LLM 能够在 Zeroshot LAA arch 下进行泛化 。
- 当 Agent 基于开源 LLM 构建时,规划流通常可以提高性能 。
随后,研究者在 HotPotQA 环境中进行了基准测试,以评估 LAA 的多步骤推理能力 。由于在该环境中,可用的搜索、查找和完成运算都与知识推理有关,很难分开,因此他们将 BOLAA arch 留待此后工作中使用,只比较其他 agent arch 的性能 。结果如下表 3 所示:

文章插图
总体来说,ReAct agent 引擎的性能最好,这可以从几个方面来解释 。
首先,少样本提示对于 LAA 的行为生成和推理能力是必要的,尤其是在使用较小规模语言模型进行实验时 。其次,通过比较 ReAct、PlanAct 和 PlanReAct,可以得出结论:LAA 的规划流阻碍了其在知识推理环境和任务中的表现 。原因在于,知识推理任务需要上下文信息来进行推理,而规划流是在交互之前执行的 。因此,这些生成的规划往往会导致 LAA 产生更多幻觉 。第三,在知识推理任务中,模型大小比上下文长度更重要 。大型模型的推理能力更强,因此表现更好 。
此外,OpenAI gpt-3.5 模型的卓越推理能力再次得到验证 。研究者还观察到 Llama2-70b 在所有开源 LLM 中表现最佳,这表明 Llama-2 模型未来可能会进行微调 。
在比较了 LAA 和 LLM 的总体性能之后,研究者对它们在任务复杂度方面的性能进行了更详细的研究,结果如下图所示:

文章插图

文章插图
更多研究细节,可参考原论文 。
【智能体的「一方有难八方支援」,一种分布式AI计算新范式诞生了】
推荐阅读
- 如何仅用几分钟就能破解8个字符长的密码?
- 揭穿DevOps的5个谣言!
- AIGC+低代码,一场围绕开发的深度革命
- 加密货币诈骗者如何采用新的AI技术
- 姜黄素是什么东西 姜黄素是什么东西做的
- 手机上网费是什么意思 手机上网费是什么意思 手机上网费的意思
- 半幅式方向盘真的适合家用车吗?
- 微信聊天时,多给女人发这“3个字”,会很容易俘获她的芳心!
- 原来在单位参保,辞职后灵活就业,之前的社保怎么计算?
- 视同缴费年限,是按月份来计算的吗?
