-
背景
文章介绍了在大型语言模型(LLMs)的微调方面,研究者们对微调过程中多种因素进行了系统的研究,重点在于数据大小、模型大小和微调方法的选择。 -
已有的工作 当前的研究尚未充分探讨不同微调设置下,这些因素如何影响结果,并且常规模型微调过程中鲜少考虑到这些变量间的相互作用。
- 针对数据大小,模型大小以及微调方法的系统分析
-
挑战1:如何系统性地研究数据大小、模型大小和微调方法对LLM性能影响的复杂相互作用? 为了解决这个挑战,论文首次将这些因素的影响统一在一个框架下进行分析,针对不同的微调方法和模型大小,使用大量实验数据来验证不同数据量对性能的影响。
-
挑战2:如何找到最佳的微调方法? 论文探索了三种不同的微调策略:全模型微调(FMT),提示微调(Prompt)和低秩适应(LoRA),每种方法针对微调过程中的参数优化进行了特别的设计,并进行了详细的比较,以评判不同方法在不同条件下的有效性。
-
论文主要研究了全模型微调(FMT)、提示微调(Prompt)和低秩适应(LoRA)这三种方法,实验涉及到不同大小的训练数据、不同规模的LLM模型以及种种微调设置。评价使用基于开发集的token级困惑度(PPL),对于缩放定律则使用测试集;通用生成任务中采用贪婪解码,并且基于BLEURT和RougeL指标进行翻译和摘要任务的评估。此外,还包括零样本评估,此时使用Flores200数据集。评估结果表明,综合不同因素时,缩放效应往往遵循幂律关系,且特定的微调方法初始条件对模型表现有显著影响。
该论文提供了大型语言模型微调阶段不同因素如数据大小、模型大小以及微调方法对模型性能影响的深入洞见,定义了一种新的评估框架。