-
背景
论文介绍了人工智能代理作为一个令人振奋的新研究方向,但当前的代理基准测试与评估实践中存在一些缺陷,这些缺陷在现实世界的应用中限制了它们的有效性。论文指出存在单一关注准确性而忽视其他度量标准的现象,导致最新状态的代理不必要地复杂和成本高昂;此外,对准确性来源的结论也存在误解。由于这一原因,同时优化成本和准确性成为了一个新的目标。 -
已有的工作 目前的AI代理评估和基准测试未能在实际应用中起到预期的指导作用主要因为:1) 没有控制评估成本,导致以高成本追求榜首位置的研究趋势;2) 模型开发者和下游开发者的基准测试需求被混合,难以识别哪个代理最适合特定应用;3) 许多基准测试的保留集不足,有时没有保留集,造成基于基准测试的代理存在脆弱性;4) 评估实践缺乏标准化导致普遍缺乏可复制性。
- 提出了一个新的评估和优化方向
-
挑战1:成本控制 论文提出了三个新的简单基线代理,并实验证明它们在HumanEval上的性能超过了许多复杂的代理架构同时成本更低。这表明评估必须控制成本,否则将激励研究者开发极端昂贵的代理仅仅为了排名。
-
挑战2:准确性和成本的共同优化 通过准确性和推理成本的帕累托图展现,论文提出一种新的代理设计空间:共同优化这两个度量。改进DSPy框架用于联合优化,同时在HotPotQA上保持准确性并降低成本。
-
挑战3:针对模型和下游开发者的差异化基准需求 论文通过NovelQA案例研究,展示了模型评估基准可能在用于下游评估时产生的误导。主张下游评估应该考虑美元成本,而不是成本的代理指标如模型参数数量。
-
挑战4:基准测试促使代理采取捷径 论文显示代理基准测试可能导致多种级别的过度拟合。分别提供了四种代理的泛化级别,并根据所需的泛化级别提出了不同类型保畋样本的需求。缺乏适当的保留样本会导致代理开发者,即使无意中也可能采取捷径,以WebArena基准测试为例。
-
挑战5:评估缺乏标准化和可复制性 通过对WebArena和HumanEval评估的审查发现了普遍的可复制性问题。这些问题夸大了准确性估计并导致了对代理能力的过分乐观。
-
论文提出了对现有AI代理评估和基准测试过程的批评性分析,并提供了针对发现问题的解决方法。作者实施的方法优化了准确性和成本的平衡,修改了DSPy框架进行联合优化,在HotPotQA上保持准确性的同时降低了成本。在基准测试的应用中,论文提出了一套原则明确的框架以避免过度拟合,并通过案例研究揭示了标准缺乏和评估结果不可复制的问题。这些工作都是为了推动有实际用途而不仅仅是在基准测试中表现良好的代理的发展。
这篇论文批评了当前AI代理的基准评测方式,并且提出了一系列改进措施,目标是发展出真正有实际应用价值的智能代理,而不仅仅是在基准测试中取得高分的代理。