Skip to content

Latest commit

 

History

History
24 lines (17 loc) · 1.44 KB

2404.02078.md

File metadata and controls

24 lines (17 loc) · 1.44 KB

机构&分类

Tsinghua University, University of Illinois Urbana-Champaign, Northeastern University

Reasoning


背景

  • 背景
    LLMs的当前对齐技术显著提高了它们在复杂推理任务中的性能,但仍然无法与最先进的专有模型相匹配,这主要是由于高质量对齐数据的缺乏和对提高模型复杂推理能力的偏好学习技术的探索不足。

  • 已有的工作 现有的开源LLMs尽管在编码或数学问题解决等特定能力上取得了成功,但在处理多样化挑战任务时与专业模型存在较大差距。

核心贡献

  • 提出了一个EURUS
    • 挑战1:缺乏高质量对齐数据 为了弥补这一差距,EURUS模型从Mistral-7B和CodeLlama-70B中进行微调,利用新开发的高质量对齐数据集ULTRAINTERACT,该数据集为复杂推理任务量身定做。

    • 挑战2:偏好学习技术的未充分探索 EURUS模型采用ULTRAINTERACT来进行推理任务的偏好学习,提出了新的奖励模型目标,专门解决现有偏好学习算法在推理任务中效果不佳的问题。

实现与部署

EURUS优化版本在LeetCode和TheoremQA这两项挑战性基准测试中的表现超过了现有的开源模型,其中EURUS-70B在理由推理上甚至超过了GPT-3.5 Turbo的表现。通过采用ULTRAINTERACT数据集,EURUS能够在多个复杂的推理任务上实现最佳的性能。EURUS