20万张GPU！号称“地球上最聪明的AI”Grok-3来了，斩获多个Top1

北京时间 2 月 18 日中午，埃隆·马斯克旗下的人工智能公司 xAI 重磅发布了 Grok 3 系列模型，宣称其在数学、科学和编码基准测试中，击败了 Google Gemini、DeepSeek V3、Claude 以及 OpenAI 的 GPT-4o。

更为值得关注的是，Grok 3 的训练并非如此前传闻的在“10 万张 GPU 上进行”，而是使用了“20 万张 GPU”。对此，有网友指出其算力消耗是 DeepSeek V3 的 263 倍。正因此，“又壕又横”的马斯克将其称为“地球上最聪明的 AI”。

Grok 3 基准测试曝光根据 xAI 工程师的介绍，Grok 3 其实是一个模型家族——而不仅仅是一个模型。Grok 3 的轻量级版本——Grok 3 mini——在牺牲一定准确度的情况下，能够更快地响应问题。

目前，并不是所有模型都已经上线（其中一些仍处于测试阶段），但会从今天开始陆续推出。此外，原定今天要发布的语音模式并未出现，马斯克随后也在 X 上解释称，“语言模式仍然有点不完善，所以大概会在一周左右推出，但它很棒。”

根据官方公开的测试结果，Grok 3 在包括 AIME（评估模型在一系列数学问题上的表现）和 GPQA（评估模型在博士级别的物理学、生物学和化学问题上的表现）等基准测试中，远超 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等大模型。

在大模型竞技场 Chatbot Arena（LMSYS）测试中，xAI 工程师表示，早期版本的 Grok-3 获得了第一的成绩，达到了 1402 分，超越了 Gemini 2.0 Flash Thinking 实验版本、ChatGPT-4o 最新版本以及最近大火的 DeepSeek R1 等等。要知道在 Chatbot Arena 中，用户或评审可以通过对比不同的模型响应，并进行投票，以评定哪个模型提供了最佳的答案。平台通过这种“人类评分”的方式帮助研究人员和开发者了解各大聊天机器人模型的优劣，推动模型的持续改进。时下 Grok 3 是在过往业界已发布的大模型中首个突破 1400 分、获得多个第一的大模型。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

您可能也喜欢

比尔盖茨预言AI十年内取代医生教师

扎克伯格承认：Meta正向DeepSeek学习AI

2025全球AI峰会揭晓重大突破：多模态大模型实现”人类级”动态感知，医疗与自动驾驶迎来革命性升级

留言 取消回复

留言取消回复