AI Daily — 2026-06-20
关注 AI Coding 与具身智能,每日筛选 5-8 条值得关注的动态
1. Figure 机器人数量首超人类员工,具身智能进入"产量超越人力"阶段
Figure AI 的 BotQ 工厂已将 Figure 03 人形机器人产能从每天 1 台提升至每小时 1 台(120 天内 24 倍增长),累计生产超 350 台第三代机器人及 9000 余个执行器。本周 Figure 宣布,公司机器人数量有史以来首次超过人类员工数量。 这是全球人形机器人企业首次达到这一里程碑。
值得关注: “机器人数 > 人类员工"是具身智能从"技术验证"进入"规模运营"的标志性节点。Figure 的 BotQ 工厂每小时下线 1 台的速度意味着人形机器人正式进入工业化量产节奏。叠加工信部"2026 年底万台级落地"目标、宇树科创板 IPO 过会、优必选消费级预售,具身智能产业化的三驾马车(产能+资本+政策)已全部就位。机器人"造机器人"的飞轮效应即将启动。
2. AlphaFold 负责人、诺奖得主 John Jumper 离职 DeepMind 加入 Anthropic
2024 年诺贝尔化学奖得主、AlphaFold 核心领导者 John Jumper 宣布离开工作近 9 年的 Google DeepMind,短暂休整后加入 Anthropic。DeepMind CEO Hassabis 公开致谢,称 AlphaFold 展示了 AI 在科学与医学领域的巨大潜力。Jumper 回忆 Hassabis 在他博士毕业仅 6 个月后就大胆让他领导 AlphaFold 团队。
值得关注: 这是继昨日 Noam Shazeer(Transformer 共同作者)离开 Google 加入 OpenAI 之后,Google DeepMind 遭遇的又一次核心人才流失。与 Shazeer 不同,Jumper 的加入让 Anthropic 在"AI for Science"赛道获得世界顶级科学家——Anthropic 此前发布的 Mythos 5 已在药物设计领域实现 10 倍加速,Jumper 的蛋白质结构预测经验将进一步强化这一方向。对 AI Coding 而言,Jumper 在 AlphaFold 中展示的"AI 自主发现科学规律"能力,与 Anthropic 的自主 Agent 路线高度契合。AI 人才战正从"通用模型"扩展到"垂直领域顶流”。
3. NVIDIA Research 发布 SpatialClaw:免训练空间推理框架,代码即动作接口
NVIDIA Research 发布 SpatialClaw,一个免训练的空间推理框架。它将代码作为动作接口,让智能体在持久化 Jupyter 内核中逐步编写和执行 Python 代码,调用感知工具(Depth Anything 3、SAM 3)并自由组合输出,解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%,比近期智能体 SpaceTools 高 11.2 个百分点,比无工具基线高 6.5 点。框架无需重新训练,同一提示词和工具集可跨所有基准和骨干网络运行,支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数模型。
值得关注: SpatialClaw 是 AI Coding 与具身智能交叉领域的标志性工作——“代码即动作"的范式让 AI 编程智能体直接获得空间感知和操作能力。这与前日 Anthropic Project Fetch(Opus 4.7 控制机器人比人类快 20 倍)和 NVIDIA ENPIRE(Codex 智能体控制 8 台机器人做物理实验)形成了完整的技术三角:AI Coding Agent 正在成为物理世界的通用执行器。 SpatialClaw 的"免训练"特性尤其关键——它意味着任何现有 VLM 都可以零成本获得空间推理能力,降低了"代码智能体→具身智能体"的迁移门槛。
4. Cloudflare 为 AI 智能体推出临时账户:Agent 可自主部署 Worker
Cloudflare 在 Workers 平台上推出临时账户(Temporary Accounts),允许 AI 智能体直接运行 wrangler deploy --temporary,在数秒内获取一个可用的实时 Worker,无需绕开面向人类设计的注册/登录/付费流程。临时部署默认存活 60 分钟,支持自动清理。该功能旨在消除"Agent 想部署服务但被人类流程挡住"的最后一道壁垒。
值得关注: 这是 AI Coding Agent 从"写代码"升级为"自主运维"的关键基础设施。当前 Agent 可以写代码、提交 PR、部署容器,但注册云服务账户、配置账单信息等环节仍需人类介入——Cloudflare 临时账户直接解决了这个问题。对 AI Coding 生态而言,这意味着 Agent 可以在无人类干预的情况下完成"写代码→测试→部署上线→对外提供服务"的全闭环。配合 Vercel Eve 框架和 Omnigent 多智能体元框架,AI Agent 的自主性正在从"代码层面"扩展到"基础设施层面”。
5. DeepSeek 研究员开源 AutoResearch:AI 自主跑通 285B 模型 RL 研究闭环
DeepSeek 研究员 Deli Chen 开源 AutoResearch 协议。其 AI 智能体首次完全自主地在 DeepSeek 285B 模型上完成完整 RL 研究闭环——从实验设计、写代码、提交 GPU 任务、debug 到结论总结,全程零人工干预。系统调用了 GRPO 工具,被视为持续学习研究的开端。此前,Deli Chen 已用 AutoResearch 与 DeepSeek-V4-Pro 仅用 2 小时人类工时完成 46 页综述论文(AI 执笔 99%)。
值得关注: “AI 研究 AI"的闭环再次向前迈出关键一步。如果说面壁智能的 ForgeTrain 实现了"AI 编写训练框架”,那么 AutoResearch 实现的是"AI 自主设计实验、运行实验、分析结果"——这是 AI 自我改进链条中最核心的环节。对 AI Coding 赛道而言,AutoResearch 意味着 Coding Agent 的能力边界正从"写应用代码"扩展到"写研究代码+做实验+写论文",编程智能体正在成为"科研智能体"的子集。开源发布让所有人都可以复现这一闭环。
6. HumanScale:自我中心人类视频在具身预训练中可超越真实机器人数据
HumanScale 项目比较了自我中心(egocentric)人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源的效果。经精心设计的过滤与标注流程后,基于人类视频预训练的模型在真实机器人动作预测上验证损失降低 24%,分布内任务成功率高 52.5%,分布外任务成功率高 90%。 研究验证了一种可扩展范式:先以人类视频预训练学习多样世界表征,再以少量标注机器人数据微调对齐动作空间。
值得关注: 这是具身智能数据策略的重大突破。当前具身智能最大瓶颈之一是"机器人训练数据稀缺"——遥操作采集成本极高且场景有限。HumanScale 证明了一个反直觉结论:用人类第一视角视频预训练不仅"够用",而且优于真实机器人数据。这意味着:① 训练数据可从 YouTube 等海量人类视频中获取,成本降数个数量级;② Sim-to-Real 迁移不再只依赖仿真,人类视频是更自然的"中间态";③ 具身智能的"数据飞轮"可以脱离机器人硬件独立旋转。这一发现有望加速具身智能从"数据饥渴"走向"数据充足"。
7. 阿里开源向量数据库 Zvec:pip 一行安装,十亿向量毫秒级检索
阿里开源内部向量数据库 Zvec(Apache 2.0),对标 Pinecone 每月 70 美元的能力。Zvec 采用进程内(嵌入式)架构,pip install zvec 即可使用,无需单独起服务器或守护进程。支持十亿向量毫秒级检索,全平台兼容;v0.5.0 新增原生全文混合搜索。被开发者称为"向量数据库版 SQLite"。UCSD 黄碧薇教授(causal-learn 作者)同步提出 AI 四代范式:相关性小模型→因果小模型→相关性大模型(LLM)→因果大模型,认为当前正站在第四代门口。
值得关注: Zvec 的开源对 AI Coding 工具链有直接价值——RAG(检索增强生成)是 Coding Agent 的核心能力之一,但向量数据库的部署成本和运维复杂度一直是瓶颈。Zvec 的"嵌入式"架构让任何 AI 编程工具只需一行 pip 安装即可获得生产级向量检索能力,无需 Pinecone/Milvus 的独立服务部署。结合 Qwen3.7-Max 登顶 OpenRouter 使用量、通义千问机器人三件套等信号,阿里正在构建从模型→工具→基础设施的完整 AI Coding + 具身智能生态。
8. Elasticsearch 发布持久化代理内存层:三类记忆 + 召回率 0.89
Elastic 正式发布 Agent Builder(GA),基于 Elasticsearch 构建持久化代理内存层。记忆分为**情景(episodic)、语义(semantic)、程序(procedural)**三类,分别存入独立索引,各设不同写速率与过期规则。召回采用 BM25 与 Jina v5 稠密向量的 RRF 融合,再经交叉编码器重排序。在 168 道 QA 题评估中,R@10 平均 0.89,零跨租户泄漏。该层通过 MCP 协议访问,不绑定特定运行时,已开源。
值得关注: Agent 的"记忆问题"是 AI Coding 智能体从"工具"进化为"数字员工"的最后一块拼图。当前 Coding Agent 每次会话从零开始,无法积累项目经验——Elasticsearch 的三层记忆架构(情景记忆记具体事件、语义记忆提取知识、程序记忆固化技能)直接解决了这个问题。MCP 协议兼容意味着 Claude Code、Codex 等主流工具可直接接入。叠加 Cloudflare 临时账户(Agent 自主部署)和 Claude Managed Agents(定时自主运行),AI Coding Agent 正在获得"记忆+部署+自主运行"三位一体的基础设施,“7×24 自主数字员工"的技术栈趋于完整。
趋势洞察
- AI 人才战从"架构师"升级到"诺奖级科学家”:Shazeer(Transformer 作者)→ OpenAI、Jumper(AlphaFold 领导者)→ Anthropic,两天内连续两位顶级科学家离开 Google,Google DeepMind 人才护城河出现系统性裂痕。AI 公司竞争正在从"模型参数"维度扩展到"科学发现"维度
- AI Coding Agent = 物理世界通用执行器:SpatialClaw(代码即空间动作)+ Project Fetch(Opus 控制机器人)+ ENPIRE(Codex 做物理实验),三大工作从不同角度验证同一个范式——编程智能体正在成为连接数字世界与物理世界的桥梁
- 具身智能数据范式被颠覆:HumanScale 证明人类视频预训练优于机器人数据,Figure 机器人数超人类员工——“人类数据训练机器人、机器人数据训练更好机器人"的数据飞轮首次形成闭环
- Agent 基础设施"三位一体"成型:记忆(Elasticsearch Agent Memory)+ 部署(Cloudflare 临时账户)+ 自主运行(Claude Managed Agents 定时执行),AI Coding Agent 距离"7×24 自主数字员工"只差最后一步——持续学习闭环
- “AI 构建 AI"加速闭环:AutoResearch(AI 自主做 RL 研究)+ ForgeTrain(AI 编写训练框架)+ Anthropic 80% 代码自写,递归自我改进从单点实验走向系统性工程实践