-
背景
该论文介绍了 Qwen2 系列模型,这是大型语言模型 (LLMs) 和大型多模态模型的最新成员。Qwen2 模型的特点是包含了参数范围从 0.5 到 720 亿的基础和指导式调整(instruction-tuned)的语言模型,其中涵盖了密集型模型和“专家混合”(Mixture-of-Experts)模型。 -
已有的工作 现有的诸多大型语言模型(如 ChatGPT, Llama 系列)在公开权重和技术层面引发了广泛兴趣,并带来了具体的推动作用。先前的模型可能没有完全解决跨语言理解、生成、编码、数学和推理等多个方面优化以及性能竞争的问题。尽管市场上已有 Qwen1.5, Mistral, Gemma 等模型,但是它们可能仍存在改进空间。
- 提出了一个全方位改进的大型语言模型系列
-
挑战1:在多任务环境中超越现有开放权重模型 先前的大型语言模型存在在不同领域任务中的性能限制。Qwen2 通过搭载高达 720 亿参数的密集型和专家混合模型,显著提高了在语言理解、生成、多语言能力、编码、数学和推理等任务上的性能,超越了多数先前的开放权重模型,包括其前身 Qwen1.5。
-
挑战2:提高多语言能力 多语言能力是为了满足全球化需求的重要性能指标。Qwen2 展现了在大约 30 种语言上的熟练性能,涵盖了英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,从而强调了其多语言能力和全球覆盖范围。
-
论文展现了 Qwen2 系列模型在多个权威基准测试中的性能表现。例如,旗舰模型 Qwen2-72B 在多个任务中的得分表现出色:MMLU (84.2), GPQA (37.9), HumanEval (64.6), GSM8K (89.5), 和 BBH (82.4)。而指导调整版本 Qwen2-72B-Instruct 也在 MT-Bench (9.1), Arena-Hard (48.1), 和 LiveCodeBench (35.7) 中表现出色。此外,作者比较了 Qwen2 系列模型和其他同类模型的细节,展示了 Qwen2 在多个方面的领先优势。
Qwen2 系列模型作为最新的大型语言模型,不仅在语言理解、生成、多语言能力、编码、数学和推理等多任务环境中性能出色,还在开源社区中公开了权重和资源,促进了社区的创新和可访问性。模型在多个基几测试中与现有模型相比展现出竞争力,尤其在多语言方面显示出广泛的适用性和全球覆盖范围。