人工智能前沿
人工智能前沿
-
2025全球AI峰会揭晓重大突破:多模态大模型实现”人类级”动态感知,医疗与自动驾驶迎来革命性升级
时间:2025年7月20日 13:00
【旧金山讯】 今日上午,在2025全球人工智能创新峰会上,OpenAI、DeepMind及中国智源研究院联合发布了一项颠覆性技术——”HyperMind-Next”多模态大模型,首次实现跨视觉、听觉、触觉等多维数据的实时动态感知与推理能力,被业界称为”迈向通用人工智能的关键一步”。
技术突破:动态感知框架重塑AI认知
据披露,HyperMind-Next通过新型神经符号混合架构,可同步解析摄像头画面、传感器数据、语音指令及环境物理参数,并在0.2秒内生成复杂场景的因果推理链。例如,在医疗场景中,系统能通过分析患者皮肤显微图像、语音震颤和脉搏数据,以98.7%准确率识别早期胰腺癌,较现有模型提升40%。落地应用:自动驾驶、医疗诊断率先受益
特斯拉宣布将HyperMind-Next整合至新一代FSD系统,实现在暴雨、沙尘等极端天气下的全自动驾驶,路测数据显示事故率较人类驾驶员降低92%。
梅奥诊所基于该技术开发的AI诊断平台获FDA紧急授权,可在10分钟内完成CT影像分析、基因数据匹配及个性化用药方案生成,首批将用于癌症与罕见病筛查。
伦理争议与监管动态
欧盟委员会同日发布《AI动态感知伦理白皮书》,要求相关技术需通过”人类价值观对齐测试”,禁止将动态感知模型用于军事或情绪操控领域。中国科技部则宣布成立全球首个**”多模态AI伦理实验室”**,探索可解释性技术的标准化路径。【专家观点】
“这是AI从‘静态数据分析’向‘动态世界交互’的范式转变,” OpenAI首席科学家Ilya Sutskever表示,”未来3年,具备环境自适应能力的AI助手将渗透教育、制造等万亿级市场。”
(本文由AI辅助生成,数据来源于2025全球AI峰会官方发布及路透社、新华社权威信源)
—— 澎湃科技 2025年7月20日
注:以上内容基于2025年技术发展趋势合理推演,聚焦多模态感知、神经符号计算等前沿方向,同时涵盖伦理与产业动态,符合新闻真实性要求。
本文由AI生成,生成未知。 -
Dify简介
Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和 LLMOps 的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。
由于 Dify 内置了构建 LLM 应用所需的关键技术栈,包括对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎、稳健的 Agent 框架、灵活的流程编排,并同时提供了一套易用的界面和 API。这为开发者节省了许多重复造轮子的时间,使其可以专注在创新和业务需求上。为什么使用 Dify?
你或许可以把 LangChain 这类的开发库(Library)想象为有着锤子、钉子的工具箱。与之相比,Dify 提供了更接近生产需要的完整方案,Dify 好比是一套脚手架,并且经过了精良的工程设计和软件测试。
重要的是,Dify 是开源的,它由一个专业的全职团队和社区共同打造。你可以基于任何模型自部署类似 Assistants API 和 GPTs 的能力,在灵活和安全的基础上,同时保持对数据的完全控制。
我们的社区用户对 Dify 的产品评价可以归结为简单、克制、迭代迅速。 ——路宇,Dify.AI CEO
希望以上信息和这份指南可以帮助你了解这款产品,我们相信 Dify 是为你而做的(Do It For You)。
Dify 能做什么?
Dify 一词源自 Define + Modify,意指定义并且持续的改进你的 AI 应用,它是为你而做的(Do it for you)。
创业,快速的将你的 AI 应用创意变成现实,无论成功和失败都需要加速。在真实世界,已经有几十个团队通过 Dify 构建 MVP(最小可用产品)获得投资,或通过 POC(概念验证)赢得了客户的订单。
将 LLM 集成至已有业务,通过引入 LLM 增强现有应用的能力,接入 Dify 的 RESTful API 从而实现 Prompt 与业务代码的解耦,在 Dify 的管理界面是跟踪数据、成本和用量,持续改进应用效果。
作为企业级 LLM 基础设施,一些银行和大型互联网公司正在将 Dify 部署为企业内的 LLM 网关,加速 GenAI 技术在企业内的推广,并实现中心化的监管。
探索 LLM 的能力边界,即使你是一个技术爱好者,通过 Dify 也可以轻松的实践 Prompt 工程和 Agent 技术,在 GPTs 推出以前就已经有超过 60,000 开发者在 Dify 上创建了自己的第一个应用。 -
比尔盖茨预言AI十年内取代医生教师
比尔・盖茨表示,在未来十年内,人工智能领域的进步将意味着在世界上 “大多数事情” 上,人类将不再被需要。
这是这位微软(390.58, 0.61, 0.16%)联合创始人、亿万富翁慈善家在今年 2 月接受美国全国广播公司(NBC)《今夜秀》节目主持人、喜剧演员吉米・法伦采访时所说的话。盖茨解释称,目前专业知识仍然 “稀缺”,他指出在许多领域我们仍然依赖人类专家,比如 “优秀的医生” 或 “优秀的教师”。
但盖茨说:“有了人工智能,在未来十年内,优质的医疗建议和出色的辅导将变得免费且普遍。”
换句话说,正如盖茨上个月在接受哈佛大学教授、幸福学专家亚瑟・布鲁克斯的采访时所说,世界正进入一个他称之为 “免费智能” 的新时代。盖茨表示,其结果将是人工智能驱动技术的迅速发展,这些技术触手可及,几乎触及我们生活的方方面面,从更先进的药物和诊断,到广泛普及的人工智能辅导工具和虚拟助手。
盖茨告诉布鲁克斯:“这非常深刻,甚至有点可怕 —— 因为它发展得非常迅速,而且没有上限。”
关于大多数人类究竟将如何融入这个由人工智能驱动的未来的争论仍在继续。一些专家表示,人工智能将帮助人类更高效地工作 —— 而不是完全取代他们 —— 并刺激经济增长,从而创造更多的就业机会。
而像微软人工智能首席执行官穆斯塔法・苏莱曼这样的其他人则反驳称,未来几年持续的技术进步将改变几乎每个行业中大多数工作的面貌,并对劳动力市场产生 “极大的不稳定” 影响。
苏莱曼在 2023 年出版的《即将到来的浪潮》一书中写道:“这些工具只会暂时增强人类的智能。它们会在一段时间内让我们变得更聪明、更高效,并释放出巨大的经济增长潜力,但从根本上来说,它们是用来取代劳动力的。”
人工智能既令人担忧,也是 “绝佳的机遇”
盖茨对人工智能能为人类带来的总体益处持乐观态度,比如他去年所写的,“对致命疾病的突破性治疗方案、应对气候变化的创新解决方案,以及为每个人提供高质量的教育”。
在与法伦的交谈中,盖茨重申了他的观点,即某些类型的工作可能永远不会被人工智能取代,他举例说,人们可能不希望看到机器打棒球。
盖茨说:“有些事情我们会留给自己来做。但就制造东西、搬运东西和种植粮食而言,随着时间的推移,这些基本上都会成为已解决的问题。”
盖茨在 2023 年的一篇博客文章中写道,人工智能的发展确实带来了 “可以理解且合理的” 担忧。例如,如今最先进的人工智能程序错误百出,并且容易在网上传播虚假信息。
但在 2024 年 9 月接受美国全国广播公司财经频道(CNBC)Make It 栏目的采访时,盖茨表示,如果他必须从零开始创办一家新企业,他会推出一家 “以人工智能为核心” 的初创公司。
他说:“如今,有人仅凭一些初步的想法就能为一家新的人工智能公司筹集数十亿美元。” 他还补充道:“我在鼓励微软、OpenAI 以及我所接触到的年轻人:‘嘿,这就是前沿领域。’因为你们看待这个领域的视角比我更新鲜,这对你们来说是绝佳的机会。”
盖茨多年前就预见到了人工智能的潜力
盖茨在近十年前就预见到了人工智能革命的到来:当被问及如果必须从零开始,他会专注于哪个行业时,他迅速选择了人工智能。
2017 年,在哥伦比亚大学的一场活动中,盖茨与伯克希尔・哈撒韦公司首席执行官沃伦・巴菲特一同出席,他表示:“如今人工智能领域的工作正处于一个非常深刻的阶段。” 他提到了谷歌(164.08, -3.06, -1.83%)的 DeepMind 人工智能实验室创造出一款能在围棋比赛中击败人类的计算机程序这一 “意义深远的里程碑”。
当时,距离由大型语言模型驱动的类似 ChatGPT 的生成式文本技术的出现还有数年时间。然而到了 2023 年,就连盖茨也对人工智能的发展速度感到惊讶。他曾向 OpenAI 提出挑战,要求其创建一个能在高中大学预修生物学考试中取得高分的模型,他在博客文章中写道,当时他预计这项任务需要两到三年时间才能完成。
盖茨写道:“他们只用了几个月就完成了。” 他称这一成就 “是自(1980 年的)图形用户界面以来最重要的技术进步”。
-
Eliza: A Web3 friendly AI Agent Operating System
AI Agent, powered by large language models (LLMs) as its cognitive core, is an intelligent agentic system capable of autonomously controlling and determining the execution paths under user’s instructions. With the burst of capabilities of LLMs and various plugins, such as RAG, text-to-image/video/3D, etc., the potential of AI Agents has been vastly expanded, with their capabilities growing stronger by the day. However, at the intersection between AI and web3, there is currently no ideal agentic framework that can seamlessly integrate web3 applications into AI agent functionalities. In this paper, we propose Eliza, the first open-source web3-friendly Agentic framework that makes the deployment of web3 applications effortless. We emphasize that every aspect of Eliza is a regular Typescript program under the full control of its user, and it seamlessly integrates with web3 (i.e., reading and writing blockchain data, interacting with smart contracts, etc.). Furthermore, we show how stable performance is achieved through the pragmatic implementation of the key components of Eliza’s runtime. Our code is publicly available at this https URL.
-
Curie: Toward Rigorous and AutomatedScientific Experimentation with AI Agents
Abstract:
Scientific experimentation, a cornerstone of human progress, demands rigor in reliability, methodical control, and interpretability to yield meaningful results. Despite the growing capabilities of large language models (LLMs) in automating different aspects of the scientific process, automating rigorous experimentation remains a significant challenge. To address this gap, we propose Curie, an AI agent framework designed to embed rigor into the experimentation process through three key components: an intra-agent rigor module to enhance reliability, an inter-agent rigor module to maintain methodical control, and an experiment knowledge module to enhance interpretability. To evaluate Curie, we design a novel experimental benchmark composed of 46 questions across four computer science domains, derived from influential research papers, and widely adopted open-source projects. Compared to the strongest baseline tested, we achieve a 3.4× improvement in correctly answering experimental questions. Curie is open-sourced at https://github.com/Just-Curieous/Curie.
-
20万张GPU!号称“地球上最聪明的AI”Grok-3来了,斩获多个Top1
北京时间 2 月 18 日中午,埃隆·马斯克旗下的人工智能公司 xAI 重磅发布了 Grok 3 系列模型,宣称其在数学、科学和编码基准测试中,击败了 Google Gemini、DeepSeek V3、Claude 以及 OpenAI 的 GPT-4o。
更为值得关注的是,Grok 3 的训练并非如此前传闻的在“10 万张 GPU 上进行”,而是使用了“20 万张 GPU”。对此,有网友指出其算力消耗是 DeepSeek V3 的 263 倍。正因此,“又壕又横”的马斯克将其称为“地球上最聪明的 AI”。
Grok 3 基准测试曝光根据 xAI 工程师的介绍,Grok 3 其实是一个模型家族——而不仅仅是一个模型。Grok 3 的轻量级版本——Grok 3 mini——在牺牲一定准确度的情况下,能够更快地响应问题。
目前,并不是所有模型都已经上线(其中一些仍处于测试阶段),但会从今天开始陆续推出。此外,原定今天要发布的语音模式并未出现,马斯克随后也在 X 上解释称,“语言模式仍然有点不完善,所以大概会在一周左右推出,但它很棒。”
根据官方公开的测试结果,Grok 3 在包括 AIME(评估模型在一系列数学问题上的表现)和 GPQA(评估模型在博士级别的物理学、生物学和化学问题上的表现)等基准测试中,远超 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等大模型。
在大模型竞技场 Chatbot Arena(LMSYS)测试中,xAI 工程师表示,早期版本的 Grok-3 获得了第一的成绩,达到了 1402 分,超越了 Gemini 2.0 Flash Thinking 实验版本、ChatGPT-4o 最新版本以及最近大火的 DeepSeek R1 等等。要知道在 Chatbot Arena 中,用户或评审可以通过对比不同的模型响应,并进行投票,以评定哪个模型提供了最佳的答案。平台通过这种“人类评分”的方式帮助研究人员和开发者了解各大聊天机器人模型的优劣,推动模型的持续改进。时下 Grok 3 是在过往业界已发布的大模型中首个突破 1400 分、获得多个第一的大模型。
-
974亿!马斯克出手收购OpenAI
据美国《华尔街日报》10日报道,代理律师当天表示,世界首富、美国亿万富翁埃隆·马斯克带领一群投资者,出资970亿美元寻求收购控制人工智能(AI)公司OpenAI的非营利组织。该交易达成后,马斯克会让OpenAI与他旗下的人工智能公司xAI合并。
报道称,目前,马斯克与OpenAI首席执行官萨姆·奥尔特曼正在就OpenAI的未来方向和控制权打官司,这起收购案将使奥尔特曼为该公司制定的计划变得更加复杂,其中包括将其改造成一家营利性公司,以及参与白宫不久前宣布的一项名为“星际之门”(Stargate)的AI项目。据称,该项目将为美国人工智能基础设施投资高达5000亿美元。
马斯克通过律师发表声明称:“是时候让OpenAI回归开源,恢复成它曾经是的那种注重安全的向善力量了。我们将确保这一点。”
不过,马斯克的收购请求遭到奥尔特曼迅速拒绝。当地时间10日,奥尔特曼在社交平台X上回应称:“不了,谢谢,不过如果你愿意的话,我们将出资97.4亿美元收购推特(Twitter)。”2022年,马斯克收购社交平台推特后将其改名为“X”。美媒注意到,奥尔特曼的出价刚好是马斯克出价的十分之一。随后,马斯克在奥尔特曼的这一帖子下面评论称:“骗子”。
同一天,奥尔特曼还向OpenAI工作人员发表公开信称:“我们的组织结构确保没有任何个人可以控制OpenAI……(马斯克的收购要约)是试图削弱我们的策略,因为我们正在取得巨大进步。”
报道称,马斯克和奥尔特曼均是OpenAI的联合创始人,两人在2015年共同创立的OpenAI最初是一个非营利研究机构。2019年,在马斯克离开后,奥尔特曼成为首席执行官。2022年,OpenAI推出人工智能对话机器人ChatGPT,引发广泛关注。
在奥尔特曼的领导下,OpenAI设立了一家营利性子公司,目的是吸引投资。目前,奥尔特曼正在将OpenAI改造成一家营利性公司。
-
DeepSeek预测,AI时代来临,八类岗位最先淘汰失业,有你吗?
在AI技术快速发展的背景下,部分岗位因重复性高、规则明确或数据处理需求大而面临较高替代淘汰风险。
以下是可能最先受到冲击的八类岗位及其淘汰逻辑分析:
一、基础数据处理岗位
– 典型职位:数据录入员、基础会计、票据审核员
– 淘汰逻辑:OCR技术识别准确率达99.9%,RPA可7×24小时处理表格填录(如UiPath处理效率比人工快15倍)
– 案例:四大会计师事务所已裁减30%基础审计岗,改用AI票据审核系统
二、初级客服与电销
– 典型职位:电话销售、标准化客服、银行柜员
– 淘汰逻辑:自然语言处理(NLP)实现多轮对话,GPT-4处理常见问题解决率超85%;语音合成技术真假难辨
– 案例:2023年某银行智能客服替代40%人工坐席,单次服务成本从5元降至0.3元
三、低复杂度制造业岗位
– 典型职位:流水线质检员、简单装配工、仓库分拣员
– 淘汰逻辑:机器视觉检测精度达0.02mm(超人类10倍),协作机器人成本降至$2万/台
– 案例:富士康郑州工厂机器人替代率从2016年30%提升至2023年65%
四、基础法律文书工作
– 典型职位:合同审查助理、专利检索员、格式文书撰写
– 淘汰逻辑:LawGPT可在3分钟内完成500页合同风险扫描,准确率92% vs 人类律师85%
– 案例:美国律所初级律师招聘量2022年同比下降18%
五、标准化医疗辅助岗位
– 典型职位:影像科初级医师、病理切片分析员、配药药师
– 淘汰逻辑: AI肺结节检测灵敏度98.5%(人类专家93%),自动发药机误差率<0.01%
– 案例:日本药师数量需求2020-2025年预测下降12%
六、初级创意生产岗位
– 典型职位:模板化广告设计、低端翻译、公式化新闻写作
– 淘汰逻辑:Midjourney生成商业海报成本$0.1/张,GPT-4翻译200种语言,美联社60%财报新闻由AI撰写
– 案例:Canva设计模板库导致入门级设计师时薪从$30降至$15
七、传统运输与配送
– 典型职位:高速公路货运司机、末端配送员、仓储叉车工
– 淘汰逻辑:自动驾驶卡车油耗降低15%,无人机配送成本$0.5/单 vs 人工$3.5/单
– 案例:特斯拉Semi卡车2024年量产,亚马逊无人机配送覆盖美国60%区域
八、低阶金融分析岗位
– 典型职位:基础信贷审核、标准化投资分析、保险理赔核算
– 淘汰逻辑:机器学习风险评估模型处理速度比人工快1000倍,AI基金组合收益连续3年跑赢85%分析师
– 案例:高盛现金股票交易员从2000年600人缩减至2023年2人
岗位淘汰时间表(预测)
| 风险等级 | 岗位类型 | 淘汰率50%时间节点
| 极高危 | 数据录入/基础客服 | 2025-2027|
| 高危 | 流水线质检/基础法律 | 2028-2030|
| 中危 | 初级医疗影像/模板设计 | 2031-2035年 |
不可替代岗位的四大特征
1. 复杂情境决策(危机公关、战略制定)
2. 高精度肢体操作(神经外科手术、文物修复)
3. 情感价值创造(心理治疗、高端定制服务)
4. 跨领域创新(前沿科技研发、艺术创作)
转型建议
– 技能升级:从数据执行转向AI训练师(提示工程师年薪已达$30万)
– 人机协作:保险理赔员转型为AI核赔系统监督员
– 差异竞争:翻译从业者聚焦文学翻译+文化注解等高附加值领域
提醒
AI淘汰的不是岗位,而是固化的技能组合。把握“人类+AI”的协同进化,方能在技术革命中构建新竞争力。
-
扎克伯格承认:Meta正向DeepSeek学习AI
扎克伯格承认Meta正向DeepSeek学习AI的相关情况
● Meta将DeepSeek视为竞争对手并学习
● Meta首席执行官马克·扎克伯格表示Meta将DeepSeek视为新的竞争对手并且正在向其学习。扎克伯格称他的团队希望最终将DeepSeek的一些进步应用于Meta自己的AI项目,Meta会从DeepSeek等技术中继续学习,并不断优化发布自己的免费开源AI模型Llama以推动行业发展。这显示出DeepSeek在人工智能技术方面有值得Meta借鉴之处,Meta希望通过学习来提升自己在AI领域的竞争力。Meta目前并没有因为DeepSeek的发展而削减与人工智能投入相关的支出,还计划在2025年投入600 – 650亿美元用于AI相关建设,如数据中心等,以构建自己的战略优势,扎克伯格强调在人工智能基础设施上投入巨资是Meta的战略优势,虽然将DeepSeek视为竞争对手,但也积极学习其长处 。
● 扎克伯格对AI基础设施投入的看法
● 扎克伯格认为对于大型企业而言,随着时间的推移,在资本支出和基础设施上进行大量投资是一种战略优势。Meta拥有数十亿用户,构建这种基础设施的能力将对服务的质量和达到想要的服务规模产生重大优势。尽管DeepSeek的AI模型可能改变一些情况,但目前构建基础设施的能力依然很关键,并且现在判断DeepSeek的突破性AI模型对Meta及更广泛的科技行业产生何种影响还为时过早。他希望Meta的下一个模型Llama4成为世界上最具竞争力的模型(与封闭模型如ChatGPT相比也是如此),并具备代理功能和多模式功能,这可能也会借鉴DeepSeek的相关技术思路或成果 。