Meta 推出开放式 Llama 3 AI

阅读量52672

发布时间 : 2024-04-22 10:39:51

Meta 推出了名为 Llama 3 的下一代开源大型语言模型 (LLM)。“我们相信这些是同类中最好的开源模型,”Meta 说。

新模型有两种规模:最小的模型有 80 亿个参数,较大的模型有 700 亿个参数。该公司表示,仍在训练其 4000 亿个参数的模型。为了进行比较,有人估计 OpenAI 的 GPT-4 模型约有 1.76 万亿个参数。

Meta 在博客文章中表示:“下一代 Llama 在广泛的行业基准上展示了最先进的性能,并提供了新功能,包括改进的推理能力。”

所提供的比较显示,70B 型号与 Google 的 Gemini Pro 1.5 和 Anthropic 的 Claude 3 Sonnet 不相上下。此前,已证明 Claude 3 的 Sonnet 味道优于 OpenAI 的 GPT-3.5。

Meta 声称:“由于训练前和训练后的改进,我们的预训练和指令微调模型是当今 8B 和 70B 参数范围内最好的模型。”

Meta 通过 12 个关键用例的行业基准和人类评估测试了他们的模型:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、融入角色/角色、开放式问答、推理、重写和总结。

Meta 表示,他们对 Llama 3 进行了超过 15T 代币的预训练,这些代币都是“从公开来源”收集的。

“我们的训练数据集比 Llama 2 使用的数据集大七倍,并且包含四倍多的代码。为了为即将到来的多语言用例做好准备,超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成。然而,我们预计这些语言的性能水平不会与英语相同。”帖子中写道。

Llama 3 将在所有主要平台上提供,包括云提供商、模型 API 提供商和“任何地方”。 Llama 3 目前可在 Amazon SageMaker 上使用。这些模型很快将在 Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 上提供,并得到 AMD、AWS、戴尔、英特尔、NVIDIA 和高通提供的硬件平台的支持。

“在接下来的几个月里,我们将发布多个具有新功能的模型,包括多模态、以多种语言进行对话的能力、更长的上下文窗口以及更强的整体功能。一旦我们完成 Llama 3 的训练,我们还将发布一份详细的研究论文。”

在即将推出的仍在训练的更大模型中,400B+ 参数 Llama 3 已经展示了与领先的法学硕士 GPT-4 和 Claude 3 Opus 类似的分数。至少在 Meta 提供的基准分数中是这样。

新的强大的开源模型在 Hacker News 论坛上掀起了波澜,收到了近 800 条评论和近 2000 个点赞。

安德烈·卡帕蒂 (Andrej Karpathy) 是一位广受认可的计算机科学家,也是特斯拉前人工智能总监,他称赞 Llama 3 非常有能力。他指出,最小的 Llama 3 8B“位于 Llama 2 70B 领地的某个地方,具体取决于你观察的位置。”

“非常欢迎,Llama 3 是 Meta 发布的一款外观非常强大的模型。坚持基础知识,在可靠的系统和数据工作上花费大量优质时间,探索长期训练模型的局限性。对于 400B 模型也非常兴奋,它可能是第一个 GPT-4 级开源版本。我认为很多人会要求更多的上下文长度,”Karpathy 在 X 上发帖。

本文转载自:

如若转载,请注明出处:

安全KER - 有思想的安全新媒体

分享到:微信
+15赞
收藏
安全客
分享到:微信

发表评论

Copyright © 北京奇虎科技有限公司 三六零数字安全科技集团有限公司 安全KER All Rights Reserved 京ICP备08010314号-66