重点:

摘要:


<aside> 💡 相比于llama 1,预训练数据量增加40%,并且上下文长度翻倍到4k。llama 2 属于一个相对开源的模型(很多训练和使用细节并没有详细说明)。在除了编码能力,在70b 参数量下是唯一一个接近chatgpt 3.5的开源模型。 在人类偏好数据等方便标注了大量数据,预估2500w $。 人类偏好数据集和reward model的参数并没有开源,并且使用safety和helpfulness两个奖励模型来降低safety-helpfulness tradeoff。论文中最关键且难以复现的部分主要包括: 人类偏好数据(human prefernce data)的收集过程以及训练模型时候的数据分布、RLHF训练过程、模型的评估过程。

</aside>

<aside> 💡 论文主要讲数据、微调、评估,但是大家关注的预训练部分没有被介绍、而且微调数据不开源且数据分布没有明确说明。

</aside>

<aside> 💡 论文首次在开源模型的角度证实了奖励模型的重要性。

</aside>

参考:https://www.interconnects.ai/p/llama-2-from-meta

1. 数据