匆匆发布的Llama4

【来源：虎嗅网】

本文来自微信公众号：共识粉碎机（ID：botaijin），作者：Andy Liu

现在的市场，已经没有人关心Llama2和Gemini2.5了。不过我们还是聊一下吧，不然周一开盘更没有人关心了。

美国时间周六，Meta发布了Llama 4模型，该系列包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth三款模型。

Llama 4 Scout：这是一个小型模型，拥有170亿个活跃参数和16个专家模型，总参数量为1090亿。它支持1000万以上的上下文窗口，并且可以在单个Nvidia H100 GPU上运行（INT4量化）。

Llama 4 Maverick：这是一个更大的模型，拥有170亿个活跃参数和128个专家模型，总参数量达到4000亿。基本上和之前发布的DeepSeek v3.1类似，表现友好有坏。

Llama 4 Behemoth：这是一个尚在训练中的超大模型，拥有2880亿个活跃参数和16个专家模型，总参数量接近2万亿。Meta表示，该模型在解决数学问题等科学、技术、工程和数学（STEM）技能的评估中表现优异。

原生多模态能力是Llama4比较大的亮点，利用early fusion融合了文本和视觉token，具备处理文本、视频、图像和音频等多种数据格式的能力，支持更广泛的应用场景。

几个比较有意思的点

Llama 4系列首次采用了混合专家架构，将数据处理任务分解并委派给专门的“专家”模型，从而提高训练和推理效率。这一点据说是DeepSeek开源之后，Meta成立war room快速学习和复现的结果，也基本证明之前的dense大模型路线走偏了

之前据说是4月9日或者4月10日发布，感觉很急的就提前到了4月5日。blog里面写的榜单也很少，很有可能是听说竞争对手即将会发布更强大或者类似的模型。比如某神秘东方大国的顶级AI实验室，据说近期就会发布全球最强的开源多模态模型。要是Llama不早点发新模型，估计连最强开源多模态的称号也没了。

从发布来看，做的benchmark榜单似乎也不是很全面，感觉发布的时间的确匆忙。Reasoning model也没来得及一起发布。

虽然Llama 4有了1-10Mn的long context，但是似乎模型的架构创新也不是很足，估计很快就会有更强的长上下文的开源模型了。

不过，Llama 4还是证明了，有卡还是可以大力出奇迹、快速追赶。年初DeepSeek R1发布的时候，Meta的GenAI team陷入了Panic（因为每个VP的工资都足够训练DeepSeek V3）。但是靠着20万张卡，可以快速追赶，甚至在某些领域超过DeepSeek V3。同样的，xAI也靠20万张卡，迅速追到了第一梯队。算力仍然是模型研发、AGI继续发展最核心的因素之一。

贝亿财经

华润静安府(售楼处)首页网站-华润静安府售楼处-华润静安府营销中心欢迎您-周边配套-楼盘详情-最新价格-户型图-容积率@售楼处

莲花控股：2025年一季度净利润预增103%至144%

全球市场：美股三大指数涨跌不一热门中概股、铜概念股普涨

“我再也没有想做的事了”：年轻人如何找回内驱力？

首页_越秀杨浦天玥(售楼处)2025年最新首页网站发布-越秀杨浦天玥_售楼处地址_户型配套_最新价格_小区环境-越秀杨浦天玥交房时间_楼盘百科详情

石家庄周大福黄金价格今天多少一克（2025年7月7日）

连亏四年的宝尊电商，靠“买买买”可以盈利吗？

纯苯期货上市首日运行平稳

核心CPI同比创近14个月以来新高！权威解读来了

杭州周生生黄金价格多少钱一克（2025年7月7日）

合肥周六福今日黄金价格查询（2025年7月7日）

重庆六福今日黄金价格多少钱一克（2025年7月7日）

石家庄周大福黄金价格今天多少一克（2025年7月7日）

太原周生生今日黄金价格多少钱一克（2025年7月7日）

联系我们