AI 日报 | 2026-06-13

专注 AI Coding 与具身智能领域，筛选当日最有价值的动态。

1. 🧠 MiniMax M3 开源权重模型发布：编码三件套齐满

事件： MiniMax 发布开源权重模型 M3，约 428B 总参数、23B 激活参数（MoE 架构），已上架 HuggingFace。M3 融合三项前沿能力：SWE-Bench Pro 59.0%（超 GPT-5.5 和 Gemini 3.1 Pro）、1M token 上下文窗口（自研 MSA 稀疏注意力）、原生多模态。同步上线 MiniMax Code 编程工具及 API 平台。

值得关注： M3 是国内首个同时实现"前沿 Coding + 1M 上下文 + 原生多模态"三件套的开源模型，与 Claude Opus 4.7 的差距进一步缩小。配合 MiniMax Code 工具链，形成从模型到开发工具的完整闭环，对国产 AI Coding 生态意义重大。

🔗 来源：MiniMax 官方

2. 🌘 Kimi K2.7-Code 开源发布：编程能力大幅跃升

事件： 月之暗面发布并开源最新代码模型 Kimi-K2.7-Code（1T 参数 MoE，256K 上下文）。相比 K2.6，Kimi Code Bench v2 提升 +21.8%，Program Bench +11.0%，MLS Bench Lite +31.5%。推理效率显著改进——推理 token 使用量降低 30%，长时编码任务的指令遵循和端到端成功率均提升。6x 高速模式即将推出。

值得关注： K2.7-Code 在编码基准上实现了显著的代际跃升（+21.8% 是非常可观的进步），且推理效率优化意味着实际开发体验改善。开源策略配合高速模式，将直接与 Claude Code、Codex 争夺开发者心智。

🔗 来源：Kimi 官方

3. 🔧 OpenAI Codex 双更新：浏览器开发者模式 + 速率重置攒存

事件： OpenAI 同日推出两项 Codex 重要更新——（1）浏览器开发者模式：Codex 可通过 Chrome DevTools 协议（CDP）调试浏览器问题，分析 JavaScript 性能、检查控制台输出、网络流量和页面状态；（2）速率重置攒存功能：用户可将速率限制重置保留到需要时使用，不再按固定时间自动过期。Go/Plus/Pro/Business 用户各获一次免费重置。

值得关注： 浏览器开发者模式让 Codex 从"代码生成工具"进化为"全栈调试 Agent"，具备了前端开发全流程能力。速率攒存则直击用户痛点——之前额度过期浪费是最大抱怨，灵活攒存显著提升实际可用时间。两项更新共同推动 Codex 向"开发者操作系统"定位迈进。

🔗 来源：OpenAI Developers | 来源：OpenAI

4. 🤖 字节豆包上线"任务模式"：从聊天到全链路 Agent

事件： 字节跳动旗下 AI 应用豆包大范围上线"任务模式"，支持定时执行、零代码网页生成、一键 PPT 生成、数据可视化分析等全链路 Agent 执行。原"思考模式"同步升级为"专家模式"（调用豆包大模型 2.0 Pro），App 顶部模式切换改为"快速、专家、任务"。专业版三档定价：标准版 68 元/月，加强版 200 元/月，专业版 500 元/月。

值得关注： 豆包从"AI 对话助手"全面转向"AI 任务执行平台"，“任务模式"让非开发者也能通过自然语言完成端到端工作流。定价策略对标 Cursor/Claude Code 的企业级产品，标志着中国消费级 AI 应用正式进入"Agent 即产品"阶段。

🔗 来源：IT之家

5. 🦾 WEAVER：更快、更好的机器人操作世界模型

事件： 论文 WEAVER（World Estimation Across Views for Embodied Reasoning）提出多视图世界模型架构，通过流匹配损失训练预测未来潜变量和奖励值。在机器人操作任务上，WEAVER 政策评估与真实成功率相关系数 ρ=0.870，在 π0.5 基础模型上实现政策改进成功率提升 38%，测试时规划成功率提升 14%，且速度比先前世界模型快 5-10 倍。代码和模型已开源。

值得关注： WEAVER 同时满足保真度、一致性和效率三个世界模型核心需求，5-10 倍速度提升对实时机器人控制意义重大。38% 的政策改进成功率表明世界模型正在从"研究工具"转变为"工程加速器”，推动具身智能从仿真到真实迁移的效率质变。

🔗 论文：arxiv.org/abs/2606.13672

6. 🔬 Embodied-R1.5：8B 参数具身基础模型，16/24 基准 SOTA

事件： Embodied-R1.5 是一个统一具身基础模型，将具身认知、任务规划、纠错与指向能力整合在单一架构中。基于 Qwen3-VL-8B-Instruct，通过三条自动化数据构建流水线搭建 150 亿 token 数据系统，设计多任务平衡强化学习方案。仅 8B 参数，在 24 个具身 VLM 基准中的 16 个达到 SOTA，超越 Gemini-Robotics-ER-1.5 与 GPT-5.4。Planner-Grounder-Corrector 闭环框架支持长周期自主执行与自我纠正。模型权重、数据集、训练代码已开源。

值得关注： 8B 参数击败 Gemini 和 GPT 等大参数模型，证明具身智能领域"算法创新 > 堆算力"路线可行。PGC 闭环框架让单模型实现规划-执行-纠错的完整循环，是迈向通用具身智能的重要一步。全面开源将加速社区对具身基础模型的研究。

🔗 论文：arxiv.org/abs/2606.11324

7. 📊 olmo-eval：面向模型开发循环的评估工作台

事件： Allen AI 发布 olmo-eval 评估工作台，基于 OLMES 标准构建，专为 LLM 持续开发中的反复评测场景设计。支持 agentic 和多轮评测作为一等用例，可逐问题对比检查点输出以区分真实改进与噪声。采用模块化架构，模型、工具、容器环境均可独立替换。

值得关注： AI Coding 工具迭代速度极快，但评估方法滞后——SWE-Bench 等基准被刷分严重。olmo-eval 聚焦"开发阶段快速迭代评测"，填补了 AI Coding 工具链中"如何快速验证模型改进是否真实"的关键空白，对 AI Coding 的工程化成熟度有重要价值。

🔗 来源：HuggingFace Blog

8. 📋 Anthropic 首次公众调查：近半美国人盼 AI 治愈疾病

事件： Anthropic 对近 5.2 万美国人进行首次公众调查：48% 将治愈癌症等疾病列为首要期望，36% 希望 AI 帮助残障人士。64% 担忧 AI 导致失业，56% 担忧认知依赖，52% 担忧信息误导。超 70% 支持政府监管。仅 15% 信任 AI 公司决策。多数议题上观点不因党派或地域严重分裂。

值得关注： 这是 AI 公司首次大规模公众态度调查，数据直接反映了社会对 AI 的期望与恐惧。“仅 15% 信任 AI 公司"与"70% 支持政府监管"的组合，预示着 AI 行业将面临更严格的公众监督。对 AI Coding 和具身智能从业者而言，理解公众态度是产品设计和社会责任的基础。

🔗 来源：Anthropic

📌 今日趋势总结

维度	趋势
AI Coding 模型	中国编码模型集体爆发：MiniMax M3 三件套齐满 + Kimi K2.7 大幅跃升，开源追平闭源速度加快
AI Coding 工具	Codex 全栈化（浏览器调试 + 灵活额度），豆包消费级 Agent 化——AI 编程从"写代码"走向"做任务”
具身智能研究	WEAVER 和 Embodied-R1.5 同日发布，世界模型与统一基础模型两条路线并行突破，8B 小模型击败大模型验证"算法 > 算力"
行业信号	Anthropic 公众调查揭示信任危机，AI 行业面临"技术进步 ≠ 公众信任"的结构性挑战

数据来源：AI HOT、arXiv、IT之家、Anthropic 官方、OpenAI 官方 整理时间：2026-06-13 08:00

AI 日报 · 2026年6月13日