Meta科学家Thomas Scialom在Latent Space播客中详细解读了Llama 3.1的研发过程,并预告了Llama 4的研发方向。Llama 3.1并非简单的参数堆砌,而是参数规模、训练时间和硬件限制的权衡结果,其405B参数规模是对GPT-4o的回应。虽然庞大的模型体积使其难以在普通电脑上运行,但开源的特性使得更多人能够参与其中,推动技术发展。
Llama3.1的诞生,是参数规模、训练时间与硬件限制的完美平衡。405B的庞大身躯,不是随意的选择,而是Meta向GPT-4o发起的挑战书。尽管硬件的限制让Llama3.1无法在每个家庭的电脑上起舞,但开源社区的力量让一切变得可能。
在Llama3.1的研发过程中,Scialom和他的团队重新审视了Scaling Law。他们发现,模型规模的确是关键,但更重要的是训练数据的总量。Llama3.1选择了增加训练的token数,哪怕这意味着要付出更多的算力。
Llama3.1在架构上并没有翻天覆地的变化,但在数据的规模和质量上,Meta下足了功夫。15T的token海洋,让Llama3.1在知识的深度与广度上都有了质的飞跃。
在数据的选择上,Scialom坚信公开互联网上的文本垃圾太多,真正的金子是合成数据。Llama3.1的后训练过程中,完全没有使用人工书写的答案,而是完全依赖于Llama2生成的合成数据。
模型评估一直是AI领域的难题。Llama3.1在评估与改进上,尝试了多种方法,包括奖励模型和多样化的基准测试。但真正的挑战在于,如何找到能够击溃强大模型的合适prompt。
Meta已经在6月开启了Llama4的训练,而这一次,他们将重点放在了agent技术上。Toolformer等agent工具的开发,预示着Meta在AI领域的新探索。
Llama3.1的开源,不仅是Meta的一次大胆尝试,更是对AI未来的一次深刻思考。随着Llama4的启动,我们有理由相信,Meta将在AI的道路上,继续领跑。让我们一起期待,Llama4和agent技术将如何重新定义AI的未来。
通过对Llama 3.1研发过程的深入了解,我们可以看到Meta在大型语言模型领域的持续创新和努力,以及对开源社区的重视。Llama 4的研发方向也预示着未来AI技术发展的趋势,值得我们拭目以待。未来AI技术将如何发展,让我们共同期待。