Meta 上周如约正式发布了 Llama3.1 版本模型,与泄露的内容一致包含8B、70B、405B 三个型号。
提供了更好的推理能力、更大的 128K token 上下文窗口,并改进了对8种语言的支持等其他改进。
405B 可以在多项任务上可以与领先的闭源模型竞争。还更新了许可证,允许开发者用 Llama 模型的输出,包括 405B 来改进其他模型。
405B对Meta确实很重要,以至于小扎还发布了一个对应的声明来介绍Meta的开源优势。
他认为开源人工智能(如 Llama 3.1)是未来发展的正确道路,它能够促进 AI 技术的更广泛的应用和创新,同时也有助于 Meta 保持技术领先地位和商业模式的可持续性。
在线地址:https://ai.meta.com/blog/meta-llama-3-1/
Llama 3.1 405B 的第三方评估结果也都出来了:
SEAL 和 Allen AI 的 ZeroEval 两个独立评估机构给出了自己的结果,405B 确实。
SEAL 上405B指令遵循第一、代码第四、数学第二。ZeroEval 测试它整体性能介于 Sonnet 3.5 和 GPT4o 之间。
同时从技术报告论文来看,Llama 使用了非常多的合成数据来帮助训练模型:
- 代码的监督微调 (SFT for Code):405B 模型采用了 3 种合成数据方法来提升自身的代码能力,包括代码执行反馈、编程语言翻译和文档反向翻译。
- 数学的监督微调 (SFT for Math):使用了多种方法包括从数学背景中获取相关的预训练数据,并将其转换为问答格式,以用于监督微调;使用Llama 3来生成一组提示的逐步解决方案;训练结果和逐步奖励模型,以过滤其中间推理步骤错误的训练数据;提示Llama 3通过结合文本推理和相关的Python代码来解决推理问题;为了模拟人类反馈,我们利用不正确的生成进行训练,并进一步通过提示Llama 3来消除这些错误。
- 多语言能力的监督微调 (SFT for Multilinguality):"为了收集更高质量的非英语语言人工标注,我们从预训练过程中分出一个分支,继续在由 90% 多语言标记 (tokens) 组成的数据混合集上进行预训练,以此来培养一个多语言专家模型。"
- 长文本处理能力的监督微调 (SFT for Long Context):主要依靠合成数据来解决超长上下文训练的需求。长上下文预训练使用了8000亿(B)个Token,分为6个阶段,并有一个退火阶段。**使用早期版本的 Llama 3 来生成基于关键长文本处理场景的合成数据,包括多轮问答、长文档摘要和代码库推理。"
- 工具使用能力的监督微调 (SFT for Tool Use):针对 Brave Search、Wolfram Alpha 和 Python 解释器(一个特殊的新 ipython 角色)进行了训练,以实现单一、嵌套、并行和多轮函数调用的能力。
- 基于人类反馈的强化学习 (RLHF):大量使用了基于 Llama 2 生成结果的直接偏好优化 (DPO) 数据。
转载:https://quail.ink/