Meta 推出开放式 Llama 3 AI-安全KER

Meta 推出了名为 Llama 3 的下一代开源大型语言模型 (LLM)。“我们相信这些是同类中最好的开源模型，”Meta 说。

新模型有两种规模：最小的模型有 80 亿个参数，较大的模型有 700 亿个参数。该公司表示，仍在训练其 4000 亿个参数的模型。为了进行比较，有人估计 OpenAI 的 GPT-4 模型约有 1.76 万亿个参数。

Meta 在博客文章中表示：“下一代 Llama 在广泛的行业基准上展示了最先进的性能，并提供了新功能，包括改进的推理能力。”

所提供的比较显示，70B 型号与 Google 的 Gemini Pro 1.5 和 Anthropic 的 Claude 3 Sonnet 不相上下。此前，已证明 Claude 3 的 Sonnet 味道优于 OpenAI 的 GPT-3.5。

Meta 声称：“由于训练前和训练后的改进，我们的预训练和指令微调模型是当今 8B 和 70B 参数范围内最好的模型。”

Meta 通过 12 个关键用例的行业基准和人类评估测试了他们的模型：寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、融入角色/角色、开放式问答、推理、重写和总结。

Meta 表示，他们对 Llama 3 进行了超过 15T 代币的预训练，这些代币都是“从公开来源”收集的。

“我们的训练数据集比 Llama 2 使用的数据集大七倍，并且包含四倍多的代码。为了为即将到来的多语言用例做好准备，超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成。然而，我们预计这些语言的性能水平不会与英语相同。”帖子中写道。

Llama 3 将在所有主要平台上提供，包括云提供商、模型 API 提供商和“任何地方”。 Llama 3 目前可在 Amazon SageMaker 上使用。这些模型很快将在 Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 上提供，并得到 AMD、AWS、戴尔、英特尔、NVIDIA 和高通提供的硬件平台的支持。

“在接下来的几个月里，我们将发布多个具有新功能的模型，包括多模态、以多种语言进行对话的能力、更长的上下文窗口以及更强的整体功能。一旦我们完成 Llama 3 的训练，我们还将发布一份详细的研究论文。”

在即将推出的仍在训练的更大模型中，400B+ 参数 Llama 3 已经展示了与领先的法学硕士 GPT-4 和 Claude 3 Opus 类似的分数。至少在 Meta 提供的基准分数中是这样。

新的强大的开源模型在 Hacker News 论坛上掀起了波澜，收到了近 800 条评论和近 2000 个点赞。

安德烈·卡帕蒂 (Andrej Karpathy) 是一位广受认可的计算机科学家，也是特斯拉前人工智能总监，他称赞 Llama 3 非常有能力。他指出，最小的 Llama 3 8B“位于 Llama 2 70B 领地的某个地方，具体取决于你观察的位置。”

“非常欢迎，Llama 3 是 Meta 发布的一款外观非常强大的模型。坚持基础知识，在可靠的系统和数据工作上花费大量优质时间，探索长期训练模型的局限性。对于 400B 模型也非常兴奋，它可能是第一个 GPT-4 级开源版本。我认为很多人会要求更多的上下文长度，”Karpathy 在 X 上发帖。