-
背景
论文指出,大型语言模型(LLMs)在多媒体应用中展现出了处理多任务的重要潜力,包括内容生成、互动娱乐和艺术创作。尽管传统方法在他们的单体密集型模型上常常会遭受知识混乱,而多元专家系统(MoE,Mixture-of-Experts)由于其稀疏结构在有效的任务解耦方面表现出了希望。 -
已有的工作 人类在有明确线索的情况下展现出了更好的多任务表现,例如在厨房烹饪多道菜时的食谱和在紧急状况下的清晰标志。尽管人类可以应用“显式意识”到推理或者微调过程中,例如指令微调、情境学习以及思想链,但这些方法主要是在密集型架构的模型上探究的。如果将多任务的知识强加到同一个密集型模型上,最终会导致灾难性的遗忘,从而影响所有任务的表现。此外,传统MoE在多任务学习的应用上还未能完全解决选择正确专家组合等挑战。
- 提出了一个名为Intuition-MoR1E的新框架
-
挑战1:选择正确的专家组合 目前的MoE路由器通常由线性层和softmax组成,它们在细微的任务分辨上存在困难,导致在专家之间的特征分配不够理想。论文提出了一种新的范式Intuition-MoR1E,该设计利用实例的内在语义聚类来模仿人脑处理多任务,为路由器提供隐性指导以优化特征分配。
-
挑战2:多专家带来的过度头寸和计算成本 多任务MoE需要大量的专家,与单任务相对应,这导致了在培训和存储方面的额外成本,构成了实用实施的障碍。为了解决这个问题,论文进一步提出了一种超轻量级的混合排名1专家(MoR1E)架构,并结合低阶适配器(LoRA),用于高效的模型微调。MoR1E在数学上已被证明具有与基于LoRA的对应物相当的能力,但在实际应用中提供了更大的灵活性,并且在类似的参数设置下达到了更高的准确性。
-
在14个公共数据集上进行了广泛实验,以评估所提出的Intuition-MoE框架的性能,该框架显著提高了效果和效率,并在整体准确性上实现了高达2.15%的提升。该研究在实现和部署方面面临的挑战包括正确选择每个任务的专家组合和多任务导致的专家数量增加。通过引入隐性直觉耦合进MoE路由器,通过语义理解的嵌入模型和聚类算法形成先验知识,并计算输入实例与这些先验知识之间的相关性,从而解决了这些挑战,使得模型在进行任务分配决策时能有更好的效果。
论文提出了一个新的用于大型语言模型多任务微调的框架Intuition-MoR1E,该框架借鉴人类认知神经科学原理,并利用排名1专家形式来管理直觉,显著提高了参数效率和多任务微调效果。