-
背景
论文指出,大型语言模型(LLMs)在处理自然语言处理问题上的惊人表现激发了人们利用它们构建语言代理来完成复杂任务的兴趣。作者关注的是开发能够解决知识密集任务的代理,该代理能够通过与特定知识库交互来完成用户的信息检索请求。 -
已有的工作 作者表示,虽然已经进行了大量的研究来构建语言代理,但很少有能够满足三个关键要求的研究:具有健全推理逻辑、适应特定环境的调整机制以及容易接受人类直接对过程提供反馈的推理过程。
- 提出了一个Adaptable MOdulaR知识代理(AMOR)
-
挑战1:建立健全的推理逻辑和适应特定环境的机制 AMOR通过有限状态机(FSM)的形式化推理逻辑,通过一系列的执行和转换解决问题,这使得用户能够直接对每个LLM控制的模块提供反馈。这种方式使得要求的基于过程的监督机制成为可能。
-
挑战2:支持灵活的反馈形式 AMOR支持灵活的反馈形式,不单单是对输出的正确性做出二元判断,而是可以进行更精细的修改和反馈。这样不仅能够帮助调整输出,还能指导模型的推理过程。
-
AMOR的训练分为两个阶段:首先是Warm-up阶段,利用来自不同公共数据集自动构建的示例对LLM进行微调,以便AMOR能够跨不同的知识环境泛化;其次是针对特定领域的适应阶段,使用过程反馈对AMOR进行定制。实验表明,在多个领域中AMOR都能较强基线显示出其优势,这得益于基于FSM的推理和过程反馈机制。
AMOR框架综合了基于有限状态机(FSM)的推理逻辑和过程反馈机制,展示了基于开源LLM的知识代理如何通过人类监督实现推理和适应性,提高了模型在完成知识密集任务中的能力。