背景

背景
该论文介绍了 Qwen2 系列模型，这是大型语言模型 (LLMs) 和大型多模态模型的最新成员。Qwen2 模型的特点是包含了参数范围从 0.5 到 720 亿的基础和指导式调整（instruction-tuned）的语言模型，其中涵盖了密集型模型和“专家混合”（Mixture-of-Experts）模型。
已有的工作 现有的诸多大型语言模型（如 ChatGPT, Llama 系列）在公开权重和技术层面引发了广泛兴趣，并带来了具体的推动作用。先前的模型可能没有完全解决跨语言理解、生成、编码、数学和推理等多个方面优化以及性能竞争的问题。尽管市场上已有 Qwen1.5, Mistral, Gemma 等模型，但是它们可能仍存在改进空间。

核心贡献

提出了一个全方位改进的大型语言模型系列
- 挑战1：在多任务环境中超越现有开放权重模型 先前的大型语言模型存在在不同领域任务中的性能限制。Qwen2 通过搭载高达 720 亿参数的密集型和专家混合模型，显著提高了在语言理解、生成、多语言能力、编码、数学和推理等任务上的性能，超越了多数先前的开放权重模型，包括其前身 Qwen1.5。
- 挑战2：提高多语言能力 多语言能力是为了满足全球化需求的重要性能指标。Qwen2 展现了在大约 30 种语言上的熟练性能，涵盖了英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等，从而强调了其多语言能力和全球覆盖范围。

实现与部署

论文展现了 Qwen2 系列模型在多个权威基准测试中的性能表现。例如，旗舰模型 Qwen2-72B 在多个任务中的得分表现出色：MMLU (84.2), GPQA (37.9), HumanEval (64.6), GSM8K (89.5), 和 BBH (82.4)。而指导调整版本 Qwen2-72B-Instruct 也在 MT-Bench (9.1), Arena-Hard (48.1), 和 LiveCodeBench (35.7) 中表现出色。此外，作者比较了 Qwen2 系列模型和其他同类模型的细节，展示了 Qwen2 在多个方面的领先优势。

总结

Qwen2 系列模型作为最新的大型语言模型，不仅在语言理解、生成、多语言能力、编码、数学和推理等多任务环境中性能出色，还在开源社区中公开了权重和资源，促进了社区的创新和可访问性。模型在多个基几测试中与现有模型相比展现出竞争力，尤其在多语言方面显示出广泛的适用性和全球覆盖范围。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2407.10671.md

2407.10671.md

背景

核心贡献

实现与部署

总结

Files

2407.10671.md

Latest commit

History

2407.10671.md

File metadata and controls

背景

核心贡献

实现与部署

总结