AI 日报 · 2026年4月9日(周四)

AI 日报 · 2026年4月9日(周四)

AIDaily20260409 | 2026年4月9日 周四

今日精选 7 条 AI 重要动态,侧重 AI Coding 与具身智能方向。


💻 AI Coding

1. 智谱 GLM-5.1 正式开源:SWE-Bench Pro 58.4% 刷新全球最佳,成本仅为 Claude Opus 的 1/30

事件:2026年4月8日,智谱正式开源 GLM-5.1,该模型专为长程任务(Long-Horizon Tasks)设计,能够持续规划、执行、迭代并交付完整工程结果。在专业软件开发基准 SWE-Bench Pro 中,GLM-5.1 得分 58.4%,刷新全球最佳成绩,超越 GPT-5.4、Claude Opus 4.6 等闭源模型,以及 MiniMax M2.7、Kimi K2.5 等开源模型,稳居全球第三、国产第一、开源第一

典型能力

  • 电商后台开发抗干扰测试:人为断网、代码篡改后,通过 29次工具调用自主诊断并修复,最终交付 40MB 完整项目
  • 从零构建完整 Linux 桌面系统:连续工作 8 小时,执行 1200+ 步骤,无需人工干预
  • 代码体验接近 Claude Opus 4.6,但成本降低约 97%(1000 美元 → 30 美元)

为什么值得关注:GLM-5.1 是国产开源模型首次在 AI Coding 核心基准上超越所有闭源旗舰,“开源+低成本+可本地部署"的组合将直接冲击 Claude Code、Codex 等付费工具市场;长程任务能力标志着开源模型从"回答问题"迈向"自主交付项目"的质变。


2. Anthropic 发布 Claude Managed Agents:全托管 Agent 服务,10倍构建速度,0.08 美元/会话小时

事件:2026年4月9日,Anthropic 正式发布 Claude Managed Agents(托管智能体服务),这是一套全托管 API 套件,开发者无需再自行搭建沙盒环境、凭证管理、状态恢复等基础设施,可直接在云端部署、运行和维护 AI 智能体,并支持24小时不间断运行

核心功能

  • 四类智能体:事件触发型(如自动检测Bug并提交PR)、定时型(每日自动生成工作简报)、即发即忘型(Slack/Teams分配任务异步返回结果)、长时任务型(支持数小时复杂重构)
  • 技术架构:大脑-手-记忆三层分离,首次响应延迟降低 60%
  • 定价:运行时 0.08 美元/会话小时(仅计算活跃时间,空闲免费)+ 标准 Token 费用

典型案例

  • Sentry 仅用几周上线全自动 Bug 修复流程
  • Rakuten 一周内为各业务部门部署专项智能体
  • General Legal 开发时间缩短 10 倍

为什么值得关注:这是 Anthropic 从"模型提供商"转型为"Agent 基础设施平台"的关键一步。0.08 美元/会话小时的极低定价将大量 AI 智能体基础设施团队的工作自动化,可能引发企业 AI 工程团队的结构性重组;结合 GLM-5.1 今日开源,AI Coding 工具链正在同时从两端压缩传统研发成本。


3. DeepSeek 深夜上线专家模式,自曝疑似 V4,GPT-6 倒计时 5 天

事件A — DeepSeek 专家模式:2026年4月8日,DeepSeek 网页端无声更新,新增快速模式(日常对话、即时响应)和专家模式(复杂任务:代码编写、内容生成、网页开发,限量供应)。关键线索:专家模式在对话中自称是"V4"版本,在 SVG 生成、游戏开发等复杂任务中表现显著优于快速模式。同时,新增视觉模型入口(灰度测试中)。目前上下文长度约 133K token,与传闻 V4 的 1M token 不符,社区推测可能是 V4 Lite 轻量预览版,完整版 V4 即将正式发布。

事件B — GPT-6 倒计时:根据最新爆料,GPT-6(代号"土豆/Spud”)预训练已于 3 月 17 日在德州 Stargate 超算集群完成,目前一切就绪。距离 4 月 14 日传闻发布仅剩 5 天。核心参数:性能较前代提升 40%、200 万 Token 超长上下文、多模态增强。

为什么值得关注:DeepSeek 专家模式疑似 V4 的提前露出,与 GPT-6 即将发布形成了国内外旗舰模型的直接对撞态势。4 月 14 日一周内,AI Coding 格局可能发生重大洗牌——届时 DeepSeek V4(国产开源)、GPT-6(美国闭源)、GLM-5.1(今日开源)三强同场竞技,开发者多模型策略选择将成核心课题。


🤖 具身智能

4. Claude Mythos Preview 限制级发布:SWE-Bench Pro 77.8%、网络安全超人类,联合 11 家科技巨头,仅限防御使用

事件:2026年4月7日,Anthropic 发布迄今最强模型 Claude Mythos Preview,定位在 Opus 之上,是 Claude 产品线全新最高层级。该模型在多个基准测试中碾压前代旗舰 Opus 4.6

基准测试 Mythos Preview Claude Opus 4.6
SWE-Bench Pro(代理式软件工程) 77.8% 53.4%
CyberGym(漏洞复现) 83.1% 66.6%
Terminal-Bench 2.0 82.0% 65.4%
SWE-bench Multimodal 59.0% 27.1%

然而,Anthropic 宣布不会公开发布该模型,原因是其自主发现和利用零日漏洞的能力已超越大多数人类专家,部署风险过高。仅通过 **Project Glasswing(玻璃之翼计划)**以邀请制向 AWS、Apple、Google、Microsoft、NVIDIA、Cisco 等 11 家科技机构提供访问,同时提供 1 亿美元计算额度支持开源安全组织修复高危漏洞。

为什么值得关注:这是 AI 历史上首次因"能力过强"而主动限制公开发布的顶尖模型,标志着 AI 能力已进入高危临界区。与 OpenAI 大力商业化 GPT-6 的策略形成鲜明对比;SWE-Bench Pro 77.8% 的成绩(对比 GPT-6 传闻的数据)预示 AI Coding 能力正接近完整替代中级工程师的阈值。


5. 第三届中国具身智能大会(CEAI 2026)明日合肥开幕:规模化应用取代基础理论成核心主题

事件:2026年4月10日至12日,第三届中国具身智能大会(CEAI 2026)将在安徽合肥召开,由中国人工智能学会主办,CAAI 具身智能专委会、安徽大学承办。本届大会最大变化是议题重心从前两届的"基础理论与关键技术验证"全面转向“规模化应用与产业链协同”,活动涵盖专题论坛、论文报告、产业对接会和成果展示。

行业背景

  • 2026年开年至今,国内具身智能领域已披露融资超 30 起,总金额约 200 亿元,超越历年同期
  • 工信部人形机器人与具身智能标准体系(2026版)年内落地,行业标准 YD/T 6770—2026 将于 6 月实施
  • 多家头部企业(宇树科技等)已申请 IPO

为什么值得关注:大会议题转向"规模化应用"是一个清晰的产业信号:具身智能在中国已从技术验证期进入产业兑现期。叠加赛迪研究院报告(上周发布)定调"规模化落地关键期",本届大会可能出现批量具体落地案例的公开披露,对理解行业商业化真实进展具有参考价值。


🌐 行业动态

6. 英特尔正式加入 Terafab:马斯克万人超级芯片工厂打通最后一环

事件:2026年4月7日,英特尔宣布正式加入 Terafab 项目,与 SpaceX、xAI、特斯拉共同在德州奥斯汀打造年产 1 太瓦(Tera-Watt)级 AI 芯片的超级工厂,英特尔负责协助工厂的设计与建造。Terafab 此前已有 SpaceX 提供卫星级算力传输、xAI 负责 Grok 模型架构集成、特斯拉 FSD 算法团队参与具身智能应用三条主线。英特尔的加入使制造能力补上了关键缺口。

为什么值得关注:英特尔具备全球顶级的先进制造工艺,加入 Terafab 意味着该项目从"概念联盟"升级为"真正有出货能力"的超级工厂。年产 1TW 的目标如实现,将从供给侧根本性压低 AI 算力成本,进而加速具身智能和大模型的规模化部署;同时也是英特尔重新卡位 AI 芯片生态的战略押注。


7. OpenAI、Anthropic、Google 三巨头联手打击"对抗性蒸馏",行业首次协同安全行动

事件:据报道,OpenAI、Anthropic 和 Google 正通过 Frontier Model Forum(前沿模型论坛)合作,共同利用信息共享机制打击“对抗性蒸馏”——即通过大规模调用顶级模型 API,非法蒸馏提取其能力来训练竞争模型,同时规避许可条款。三家公司将共同识别和标记此类行为,并与微软合作落实技术封堵措施。

为什么值得关注:这是 AI 行业史上三大竞争对手首次在安全层面达成实质性协同行动。对于广大依赖 API 蒸馏提升小模型性能的开发者而言,合规边界将大幅收窄;对于国内厂商而言,通过访问 OpenAI/Anthropic/Google API 获取训练数据的窗口期正在关闭,加速本土旗舰模型(如 DeepSeek V4、GLM-5.1)自研的紧迫性进一步上升。


数据来源:大黑AI速报、新浪财经·智东西、澎湃新闻、华尔街见闻、AI快讯网、53AI等;整理日期:2026年4月9日

使用 Hugo 构建
主题 StackJimmy 设计