AI 日报 · 2026年6月13日

AI 日报 · 2026年6月13日

AI 日报 | 2026-06-13

专注 AI Coding 与具身智能领域,筛选当日最有价值的动态。


1. 🧠 MiniMax M3 开源权重模型发布:编码三件套齐满

事件: MiniMax 发布开源权重模型 M3,约 428B 总参数、23B 激活参数(MoE 架构),已上架 HuggingFace。M3 融合三项前沿能力:SWE-Bench Pro 59.0%(超 GPT-5.5 和 Gemini 3.1 Pro)、1M token 上下文窗口(自研 MSA 稀疏注意力)、原生多模态。同步上线 MiniMax Code 编程工具及 API 平台。

值得关注: M3 是国内首个同时实现"前沿 Coding + 1M 上下文 + 原生多模态"三件套的开源模型,与 Claude Opus 4.7 的差距进一步缩小。配合 MiniMax Code 工具链,形成从模型到开发工具的完整闭环,对国产 AI Coding 生态意义重大。

🔗 来源:MiniMax 官方


2. 🌘 Kimi K2.7-Code 开源发布:编程能力大幅跃升

事件: 月之暗面发布并开源最新代码模型 Kimi-K2.7-Code(1T 参数 MoE,256K 上下文)。相比 K2.6,Kimi Code Bench v2 提升 +21.8%,Program Bench +11.0%,MLS Bench Lite +31.5%。推理效率显著改进——推理 token 使用量降低 30%,长时编码任务的指令遵循和端到端成功率均提升。6x 高速模式即将推出。

值得关注: K2.7-Code 在编码基准上实现了显著的代际跃升(+21.8% 是非常可观的进步),且推理效率优化意味着实际开发体验改善。开源策略配合高速模式,将直接与 Claude Code、Codex 争夺开发者心智。

🔗 来源:Kimi 官方


3. 🔧 OpenAI Codex 双更新:浏览器开发者模式 + 速率重置攒存

事件: OpenAI 同日推出两项 Codex 重要更新——(1)浏览器开发者模式:Codex 可通过 Chrome DevTools 协议(CDP)调试浏览器问题,分析 JavaScript 性能、检查控制台输出、网络流量和页面状态;(2)速率重置攒存功能:用户可将速率限制重置保留到需要时使用,不再按固定时间自动过期。Go/Plus/Pro/Business 用户各获一次免费重置。

值得关注: 浏览器开发者模式让 Codex 从"代码生成工具"进化为"全栈调试 Agent",具备了前端开发全流程能力。速率攒存则直击用户痛点——之前额度过期浪费是最大抱怨,灵活攒存显著提升实际可用时间。两项更新共同推动 Codex 向"开发者操作系统"定位迈进。

🔗 来源:OpenAI Developers | 来源:OpenAI


4. 🤖 字节豆包上线"任务模式":从聊天到全链路 Agent

事件: 字节跳动旗下 AI 应用豆包大范围上线"任务模式",支持定时执行、零代码网页生成、一键 PPT 生成、数据可视化分析等全链路 Agent 执行。原"思考模式"同步升级为"专家模式"(调用豆包大模型 2.0 Pro),App 顶部模式切换改为"快速、专家、任务"。专业版三档定价:标准版 68 元/月,加强版 200 元/月,专业版 500 元/月。

值得关注: 豆包从"AI 对话助手"全面转向"AI 任务执行平台",“任务模式"让非开发者也能通过自然语言完成端到端工作流。定价策略对标 Cursor/Claude Code 的企业级产品,标志着中国消费级 AI 应用正式进入"Agent 即产品"阶段。

🔗 来源:IT之家


5. 🦾 WEAVER:更快、更好的机器人操作世界模型

事件: 论文 WEAVER(World Estimation Across Views for Embodied Reasoning)提出多视图世界模型架构,通过流匹配损失训练预测未来潜变量和奖励值。在机器人操作任务上,WEAVER 政策评估与真实成功率相关系数 ρ=0.870,在 π0.5 基础模型上实现政策改进成功率提升 38%,测试时规划成功率提升 14%,且速度比先前世界模型快 5-10 倍。代码和模型已开源。

值得关注: WEAVER 同时满足保真度、一致性和效率三个世界模型核心需求,5-10 倍速度提升对实时机器人控制意义重大。38% 的政策改进成功率表明世界模型正在从"研究工具"转变为"工程加速器”,推动具身智能从仿真到真实迁移的效率质变。

🔗 论文:arxiv.org/abs/2606.13672


6. 🔬 Embodied-R1.5:8B 参数具身基础模型,16/24 基准 SOTA

事件: Embodied-R1.5 是一个统一具身基础模型,将具身认知、任务规划、纠错与指向能力整合在单一架构中。基于 Qwen3-VL-8B-Instruct,通过三条自动化数据构建流水线搭建 150 亿 token 数据系统,设计多任务平衡强化学习方案。仅 8B 参数,在 24 个具身 VLM 基准中的 16 个达到 SOTA,超越 Gemini-Robotics-ER-1.5 与 GPT-5.4。Planner-Grounder-Corrector 闭环框架支持长周期自主执行与自我纠正。模型权重、数据集、训练代码已开源。

值得关注: 8B 参数击败 Gemini 和 GPT 等大参数模型,证明具身智能领域"算法创新 > 堆算力"路线可行。PGC 闭环框架让单模型实现规划-执行-纠错的完整循环,是迈向通用具身智能的重要一步。全面开源将加速社区对具身基础模型的研究。

🔗 论文:arxiv.org/abs/2606.11324


7. 📊 olmo-eval:面向模型开发循环的评估工作台

事件: Allen AI 发布 olmo-eval 评估工作台,基于 OLMES 标准构建,专为 LLM 持续开发中的反复评测场景设计。支持 agentic 和多轮评测作为一等用例,可逐问题对比检查点输出以区分真实改进与噪声。采用模块化架构,模型、工具、容器环境均可独立替换。

值得关注: AI Coding 工具迭代速度极快,但评估方法滞后——SWE-Bench 等基准被刷分严重。olmo-eval 聚焦"开发阶段快速迭代评测",填补了 AI Coding 工具链中"如何快速验证模型改进是否真实"的关键空白,对 AI Coding 的工程化成熟度有重要价值。

🔗 来源:HuggingFace Blog


8. 📋 Anthropic 首次公众调查:近半美国人盼 AI 治愈疾病

事件: Anthropic 对近 5.2 万美国人进行首次公众调查:48% 将治愈癌症等疾病列为首要期望,36% 希望 AI 帮助残障人士。64% 担忧 AI 导致失业,56% 担忧认知依赖,52% 担忧信息误导。超 70% 支持政府监管。仅 15% 信任 AI 公司决策。多数议题上观点不因党派或地域严重分裂。

值得关注: 这是 AI 公司首次大规模公众态度调查,数据直接反映了社会对 AI 的期望与恐惧。“仅 15% 信任 AI 公司"与"70% 支持政府监管"的组合,预示着 AI 行业将面临更严格的公众监督。对 AI Coding 和具身智能从业者而言,理解公众态度是产品设计和社会责任的基础。

🔗 来源:Anthropic


📌 今日趋势总结

维度 趋势
AI Coding 模型 中国编码模型集体爆发:MiniMax M3 三件套齐满 + Kimi K2.7 大幅跃升,开源追平闭源速度加快
AI Coding 工具 Codex 全栈化(浏览器调试 + 灵活额度),豆包消费级 Agent 化——AI 编程从"写代码"走向"做任务”
具身智能研究 WEAVER 和 Embodied-R1.5 同日发布,世界模型与统一基础模型两条路线并行突破,8B 小模型击败大模型验证"算法 > 算力"
行业信号 Anthropic 公众调查揭示信任危机,AI 行业面临"技术进步 ≠ 公众信任"的结构性挑战

数据来源:AI HOT、arXiv、IT之家、Anthropic 官方、OpenAI 官方 整理时间:2026-06-13 08:00

使用 Hugo 构建
主题 StackJimmy 设计