Llama-2首个全方位评测，国内外开源模型大比拼

来源：IT之家

发布时间：2023-07-25 13:56 阅读量：18159

进入 2023 年 7 月，大语言模型的发展进入了新阶段，开源成为一个火热的主题。

7 月 6 日，上海人工智能实验室与商汤科技等联合发布了书生?浦语开源体系，不仅开源了书生?浦语的轻量版本(InternLM-7B)，还率先开源了从数据、训练到评测的全链条工具体系，并提供完全免费的商用许可；

7 月 14 日，智谱科技开放 ChatGLM2-6B 免费商用；

7 月 19 日，Meta 开源了性能更强的 Llama-2，也提供了更加宽松的商用许可。

面对语言模型的新一波开源浪潮，图灵奖得主 Yann Lecun 在推特上评价:

This is going to change the landscape of the LLM market.

可是，开源模型的表现是否可以当得起业界的热切期待？

我们在拿到 Llama-2 的系列开源模型后，通过 OpenCompass 对它进行了全方位的评测。

Llama-2 有多强

Llama-2 相比 Llama-1 有不少技术层面的改进，从而带来了模型性能、推理效率以及安全性等方面的有效提升。具体而言，重要的改进有以下几点:

模型架构上使用 Group-Query-Attention 来提高模型推理效率，语境长度从 2K 增加一倍到 4K。
预训练语料从 1.4T tokens 增加到 2T tokens。
在监督微调阶段更加注重数据集质量，使用更少但质量更高的 SFT 数据相比使用百万量级的公开 SFT 数据，效果显著提升。
引入了三项安全训练技术 Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation 提升模型的安全性。

相比前代性能大增，仍难媲美 ChatGPT

那么，Llama-2 的整体能力究竟如何呢？

虽然在官方技术报告中已经展示了在 20 个左右数据集上的测试结果，但评价能力维度仍然有限，对比的模型也还不够全面。

这里我们借助开源评测工具 OpenCompass，对 Llama-2 发布的各个模型在 40 多个评测集上进行了全方位的评测，从学科、语言、知识、理解、推理五大维度综合衡量大模型的能力。

结果可以总结为以下的雷达图:

下表列出 Llama、Llama-2、以及 ChatGPT 在几个有代表性评测集上的表现:

相比上代模型全面提升:

从综合能力角度，Llama-2-70B相比于 Llama-1-65B(紫色)更胜一筹，在语言、知识、推理、理解、学科等各个能力维度相比 Llama-1 都有明显提升。比如综合考试集 MMLU 上从 63.71 提升到 69.75，GSM8K 上从 54.51 提升到 63.46。

对话和基座模型基本持平:

经过微调和对齐的模型 Llama-2-70B-Chat相比基座模型 Llama-2-70B(绿色)，综合能力基本持平，在语言、推理和理解上相比基座有性能提升，在学科综合能力和知识能力上略有下降。比如翻译评测集 Flores 和代码评测集 HumanEval 上，Chat 模型分别有超过 40% 和 20% 的相对提升，而在 MMLU 和 TrivialQA 上则有大约 10% 的相对降低。

离 ChatGPT 仍有较大差距:

相比 ChatGPT-0613，Llama-2-70B-Chat(黄色)仍需继续追赶，尤其在推理能力、理解能力、和学科综合能力上差距还比较明显。其中数学评测集 MATH 和代码评测集 HumanEval 的差距都超过了一倍。

中文能力短板明显

在 Llama 的训练语料中，中文占比较小，微调阶段也没有针对中文进行调优，所以当前 Llama-2-Chat 在中文问题上仍显不足。

一个典型的表现就是给定中文问题时，模型还是会以英文回答。

为了对 Llama-2 的中英文能力有更深入的理解，我们选取了 OpenCompass 中的中英文数据集进行分别分析。

结果显示: