您的位置:首页 >综合 >

快资讯丨施一公的西湖大学,发了个AI科学家!首超人类SOTA

2025-10-14 10:53:28    来源:智东西

智东西


(资料图)

作者 | 李水青

编辑 | 心缘

智东西10月13日报道,近日,西湖大学研究团队推出一款“AI科学家”智能体系统——DeepScientist,首次大规模实证AI能够在前沿科学任务上逐步超越人类的SOTA(行业最佳)。

▲DeepScientist开源界面

DeepScientist仅用两周就取得了相当于人类研究者三年研究成果的进展。研发团队通过三个前沿AI任务——智能体故障归因、大语言模型推理加速和AI文本检测,对此进行了验证。

▲DeepScientist用两周就取得相当于人类三年研究成果的进展

结果非常亮眼:DeepScientist仅用16块H800 GPU,花了一个月,最后在三个任务上都超过了人类的最先进方法——分别提升了183.7%、1.9%和7.9%。截至2025年9月,这一成绩也超越了DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder等前沿模型。

▲DeepScientist在三个任务上都超过了人类的最先进方法

在这个过程中,DeepScientist就像人类科学家一样,明确目标、提假设、做验证、分析结果,还会一边记忆一边探索新方向。它总共想出约5000个科研点子,验证了1100个,最终有21个带来了科学创新。团队强调,这些点子都是通过自主重新设计核心方法,而非简单组合现有技术。

在使用DeepReviewer与其他AI科学家系统的28篇公开论文进行基准测试时,DeepScientist是唯一能产出接受率达60%的论文的AI科学家系统。

▲DeepScientist接受率达60%

背后,DeepScientist的创新之处在于将科学发现形式化为一个贝叶斯优化问题,其架构通过一个配备开放知识系统和持续积累的发现记忆(Findings Memory)的多智能体系统,平衡对新假设的探索与利用,从而在预算受限的情况下最大限度地提高发现效率。

DeepScientist将采取四阶段渐进式开源。其目前已开源了前端和后端代码,并邀请小部分用户试用;计划在10月15日之前开源基础组件,支持用户构建自己的DeepScientist,11月之后还将发布实验数据以及开源DeepScientist的源代码。

▲DeepScientist论文截图

GitHub地址:

https://github.com/ResearAI/DeepScientist

论文地址:

https://arxiv.org/abs/2509.26603

体验申请地址:

http://ai-researcher.net/

一、3个AI任务验证:两周取得人类三年研究成果,超越人类183.7%

尽管此前的AI科研系统已能想出一些新点子,但它们往往缺乏针对性,无法解决紧迫的人类定义挑战,难以产出具有科学价值的成果。

西湖大学研究团队推出的DeepScientist系统,试图通过在长达数月的时间里进行目标导向的、完全自主的科学发现,来克服这一局限。

首先来看看三个AI任务,DeepScientist是如何取得科研成果的。

第一个AI任务是具有较高复杂度的“智能体故障归因”,即找出多AI系统里哪个AI导致任务失败。

DeepScientist发现当前方法缺乏归因所必需的反事实推理能力。通过反复试验、不断纠错以及综合新发现,最终提出了一种名为A2P(Abduction-Action-Prediction,溯因-行动-预测)的全新方法。

其核心创新在于将任务从简单的模式识别提升到结构化的因果推理,通过预测某个提议的解决方案是否本可带来成功,填补了反事实能力方面的关键空白。

这种新方法在Who&When基准测试的“算法生成”设置中获得了47.46分,比人类的SOTA基准提高了183.7%。截至2025年9月,无需训练的A2P方法仍保持着最先进水平的地位,也高于DeepSeek-R1、Claude-4-Sonnet、Qwen3-Coder、Gemini 2.5 Pro、GPT-OSS-120B的成绩。

▲DeepScientist完成的研究论文截图

论文地址:

https://github.com/ResearAI/DeepScientist/blob/main/case/DS_A2P.pdf

二是大语言模型的推理加速任务,即让大语言模型运算更快。

此过程中,系统进行了许多不同的尝试,例如使用卡尔曼滤波器动态调整邻接矩阵,以解决原始方法缺乏记忆功能的问题。尽管这些尝试大多失败了,但系统生成的ACRA方法最终通过识别稳定的后缀模式,如图3所示,将MPBB从人类的最优水平190.25 tokens/秒提升到了193.90 tokens/秒。

从科学角度而言,这项创新意义重大,因为它利用这些额外的上下文信息动态调整解码猜测,有效地为该过程植入了长期记忆,打破了标准解码器的上下文坍缩问题。这一发现凸显了该系统的主要目标:创造人类未知的新知识,而非仅仅进行工程优化。

▲DeepScientist将MPBB提升到了193.90 tokens/秒

(该论文暂未上传GitHub)

三是AI文本检测,即让它判断一段文字是人类写的还是AI写的。

DeepScientist仅用两周就取得了相当于人类三年研究成果的进展。它通过在无需人类干预的情况下,实现目标导向、持续且迭代式的科学发现,克服了传统研究效率低的难题。

DeepScientist自主生成了2472个独特的研究思路,实现了600个最有前景的假设,并最终开发出在RAID数据集上将AUROC得分提高7.9%的方法,同时降低了推理延迟。

该系统产生了三种截然不同、且性能逐步提升的方法:T-Detect、TDT和PA-Detect。

首先,T-Detect通过稳健的t分布修正了核心统计数据,随后,TDT和PA-Detect在概念上进行了演进,它们将文本视为一种信号,并使用小波和相位一致性分析来精确定位异常。从科学角度来看,这种转变揭示了AI生成文本的“非平稳性”,缓解了先前范式中因平均化局部证据而产生的信息瓶颈。

如下图所示,这一完整的发现轨迹展示了DeepScientist在逐步推进前沿科学发现方面的能力,它建立了新的SOTA,AUROC提高了7.9%,同时推理速度也提升了一倍。

▲DeepScientist在AUROC得分提高了7.9%

▲DeepScientist完成的研究论文截图

论文地址:

https://github.com/ResearAI/DeepScientist/blob/main/case/DS_TDT.pdf

▲DeepScientist完成的研究论文截图

论文地址:

https://github.com/ResearAI/DeepScientist/blob/main/case/DS_T_Detect.pdf

二、仅用8块英伟达H800 GPU完成AI课题,DeepScientist架构解读

三项AI任务背后,团队仅为DeepScientist配备了两台服务器,每台服务器带有8块英伟达H800 GPU。

背后,DeepScientist的创新之处在于将科学发现形式化为一个贝叶斯优化问题,并通过“提出假设、验证和分析”的分层评估流程加以实现。在这种分层方案中,只有展现出潜力的研究思路才会进入成本更高的评估阶段,从而在预算受限的情况下最大限度地提高发现效率。

DeepScientist的架构通过一个配备开放知识系统和持续积累的发现记忆(Findings Memory)的多智能体系统,实现了贝叶斯优化循环。其在探索新假设与挖掘最有前景的发现之间实现智能平衡,并将最具潜力的成果推进到更高保真度的验证阶段。

DeepScientist基于西湖大学此前已有研发成果,仅用两个月、花费约10万美元(约合71.3万元人民币)就搭建完成。来自西湖大学团队的文章第一作者Yixuan Weng最新采访记录公开,记录如下:

1、问:你之前的项目是CycleResearcher。为什么将这个新项目命名DeepScientist为而不是DeepResearcher?

答:早在2024年9月,我就计划将我现在的工作命名为“DeepResearcher”,类似于DeepReviewer。然而,OpenAI后来用了这个名字。所以我决定将我的项目命名为DeepScientist。

2、问:什么时候开源?

答:我会在确保足够安全的情况下才会开源,因为我还不能完全确定它DeepScientist给学术界带来的益处是否大于其潜在的风险。因此,我必须采取谨慎的态度。

(问:为什么要采取分阶段开源策略?)

因为社区热情高涨——几乎每个人都迫不及待地想让我开源它!我计划利用国庆节和中秋节假期来修改代码,以便社区能够尽早体验该系统,并探索它如何加速不同领域的科学发现。

感谢中关村研究院的支持,我们将能够免费向社区提供完整的DeepScientist系统。

3、问:我有机会重现或改进DeepScientist吗?

答:当然!我们只用了两个月就基于ResearStudio构建了它。我相信你可以轻松创建类似“Open-DeepScientist”或“nano-DeepScientist”的项目。我们强烈鼓励社区开展此类项目。

(ResearStudio是首个用于构建可人工干预的深度研究智能体的开源框架。它实现了人机实时协作,允许用户在执行过程中暂停、编辑和引导AI智能体,而非传统的“发射后不管”模式。其Agent核心层采用了规划器(GPT-4)和执行器(GPT-4o-mini/o3)。)

GitHub地址:

https://github.com/ResearAI/ResearStudio?tab=readme-ov-file

4、问:您是否认为AI驱动的科学发现存在缩放定律?

答:我坚信AI驱动的科学发现遵循其自身的“缩放定律”。但这并非孤立现象——它是人类不断加速的科学发现的自然延伸和放大。纵观历史,科学进步的速度一直在不断加快,在现代,这种加速尤为明显。从中学开始,我就喜欢玩《席德·梅尔的文明》,游戏中知识和技术的积累会更快地带来“尤里卡时刻”。我相信,我们现在正在进入一个由AI驱动的现实世界的“尤里卡时代”。

5、问:目前,所谓的“AI科学家”看起来更像是“高通量试错机器”,而不是真正具有深刻洞察力的“发现者”。我们如何才能提升他们的科学直觉?

答:首先,随着模型能力的提升,我已经感受到它们识别科学问题局限性的能力在提升。早期的DeepSeek-R1版本,它的观察结果非常肤浅。但Qwen-3-235B-Thinking-2507发布后,它的洞察力和假设生成能力明显提升。在我看来,只有比Qwen-3-235B版本更强大的模型才能产生真正有价值的发现。

RLVR(基于可验证奖励的强化学习)是一个很有前景的方向,但它也面临挑战:成本高昂、训练效率低,大约需要1000个GPU小时才能生成一个有用的样本。

6、问:这项研究的总成本约为10万美元(约合71.3万元人民币)。与资助一名人类博士生进行类似研究周期相比,您认为目前这笔费用是否划算?

答:我认为两者各有优势。失败是成功之母,而AI最大的优势在于它能够持续探索而不疲倦。

一方面,我们可以依靠AI尝试许多不同的策略——即使发现某种方法在某个领域失败了,本身也是一个有意义的发现。另一方面,这仅仅是个开始。未来几年,由于能力的提升和推理成本的降低,AI的成本将大幅下降。

7、问:您论文中最令人兴奋的发现之一是计算资源与研究产出之间的“近线性关系”。您预测这种趋势会随着GPU数量的增加而无限期地持续下去吗?还是很快就会遇到瓶颈?下一个瓶颈可能是什么?

答:我认为这种情况不会无限期地持续下去。我们即将遇到瓶颈。下一个瓶颈将是“探索效率”,而不是“探索规模”。目前,大多数计算资源都浪费在低价值的探索上。未来的挑战是如何避免这种低价值的工作。

虽然DeepScientist偶尔会通过反复试验发现新的方法来提高性能,但收益往往微乎其微。只有当我们能够进行大规模、高价值的探索时,真正的突破才会到来。

8、问:还有其他惊喜吗?

答:是的!10月初,我们双方将全面开源一款工具。我相信每位研究人员都会对此感兴趣——它显著增强了DeepScientist的演示能力。

三、4步渐进式开源:10月中用户可构建自己的AI科学家

DeepScientist的整个开源计划会分为四个阶段。

阶段0:通用智能体框架

西湖大学已经在ResearAI/ResearStudio开源了前端和后端代码。用户可以以此为基础,使用自己的自定义工具构建各种专业的Agent。

GitHub地址:

https://github.com/ResearAI/ResearStudio

第一阶段:基于应用程序的访问(预计在10月1日之前)

为了确保安全,西湖大学团队将邀请一小部分用户试用DeepScientist,共同完善该框架。如果用户有准备探索的任务,可以填写其等候名单表格。

申请地址:

https://forms.gle/8FnGgqgBVEKv3q6a7

第二阶段:基础组件发布(预计10月15日之前)

在确保安全之后,西湖大学团队将开源基础组件。在此阶段,用户可以立即开始构建自己的DeepScientist,或者复制西湖大学团队的工作。

第三阶段:实验数据发布(预计11月之后)

西湖大学团队将开源所有约5000条假设和约1100条实验日志。这将是首次公开如此大规模的AI实验结果数据集。

第四阶段:DeepScientist源代码发布

西湖大学团队将进行长期测试和调整,以防止对人类研究造成任何潜在危害。之后,团队将发布DeepScientist代码的核心架构,以促进社区发展。

结语:AI科学家赋能科研,进入规模化实证阶段

西湖大学研发团队首次通过实证展示了一个自动化全周期科学发现系统,该系统能够产生新颖且超越现有最佳水平的方法,并以大幅超过人类研究人员的速度不断推进科学前沿。AI有望真正推动多个不同领域的前沿发展,产生具有持久影响的发现,并系统地推进多个领域的技术前沿。

不过,团队也坦言AI科研的成功率还可以继续提升,5000个点子里最终仅21个能真正带来科学突破,约60%的失败是因为代码实现出错。但好在它效率高,而且给它更多计算资源,它出成果的数量也会差不多成比例增加。

为了让AI成为更得力的合作伙伴,西湖大学研发团队认为,未来的工作应聚焦于几项关键改进:开发模拟发现环境,通过强化学习加速学习进程;构建整合科学界反馈的框架;最终通过机器人技术弥合与物理科学之间的差距。

相关阅读

“浙BA”城市争霸赛A组榜一争夺战,浙C赢了! 焦点精选

今天北京南部有小雨或零星小雨 明后天晴朗为主气温回升_每日热讯

沙特记者:C罗将战旧主!曼联将同利雅得双雄胜利和新月热身

北交所拟优化定向发行可转债和融资融券业务

推进低空飞行“看得见”管理,电科莱斯中标低空领域项目

【新视野】捷顺科技主力资金持续净流入,3日共净流入1938.49万元

广西升级发布洪水黄色预警

上交所:向海南华铁下发监管工作函|实时焦点

商务部新闻发言人就日将我多家实体列入出口管制“最终用户清单”事答记者问

生意社:9月29日江苏地区醋酸市场平稳运行 热文

今日热门!星展:维持康师傅控股“买入”评级 目标价降至13.5港元

微速讯:卢伟冰透露小米 17 系列目标在 6K+ 超高端起量,称有信心销量会比上代小米 15 系列更多

每日速递:佛山华翔取得汽车侧围内板结构专利,受撞击时可在缓冲机构作用下缓冲

前沿热点:生意社:9月29日华东地区丁苯橡胶市场行情弱势下行

农业农村部:9月29日“农产品批发价格200指数”比昨天下降0.05个点 热资讯

【新视野】季后赛关键球榜:詹姆斯总得分王!库里效率不如哈登!

最新快讯!港股黄金股午后涨幅扩大 潼关黄金涨近8%

每日时讯!如何判断银行的利率是否合理?

快资讯丨涨停雷达:锆钛矿+陶瓷出口+ST板块 *ST四通触及涨停

看点:畅游圣地悦享金秋,济宁多重优惠叠加燃动假期

生意社:9月29日晋中市场冶金焦价格暂稳运行|今日讯

【财经分析】投融资两端发力 共塑高质量发展生态——广东资本市场“9·24”一周年观察 焦点速看

定了!今年11.11购物节将于10月9日正式开启!

【报资讯】今起停牌!亿道信息一口气宣布收购两家公司控股权,标的均曾进行上市辅导

银行的投资策略是否适合长期投资者?

京东方在北京成立机器人公司 注册资本2亿|热议

组件最低0.716元/W!34个EPC项目!本周4.8GW光伏招中标项目【光伏·周分析】

9月29日生意社PVC基准价为4624.00元/吨|当前聚焦

1—8月份全国社会物流总额接近230万亿元_要闻

土默特右旗萨拉齐海燕许化妆品店(个体工商户)成立 注册资本2万人民币

当前看点!刚刚!300亿大牛股,突发公告!

焦点快看:小钢炮!洛瑞晒个人定妆照:生涯第20个赛季 时光飞逝

每日快报!保定炎焱箱包有限公司成立 注册资本1万人民币

新大正拟收购嘉信立恒75.15%股权 预计构成重大资产重组|实时

天天资讯:我在现场|蓝刀鱼畅游于碧波,天峨做好国庆黄金周爆火准备

每日时讯!2025年蔬菜种子题材公司名单(9月26日)

王楚钦3-0张禹珍!采访肯定对手变化强调困难准备,成熟太多了!

肖浩栋:携手重庆推进氢燃料电池车辆的本地商业化运营 观天下

最新消息:刚果金政府宣布延长3个月钴临时禁令

宜城高铁站反恐防暴演练 全力守护旅客安全

简讯:长江通信:武汉金控集团拟减持公司不超1%股份

大将军:锡安的体重能保持在109千克就好 那他就是加强版的韦德 今日关注

如何通过基金投资实现多层次的财富管理?

最新:泰胜风能:子公司暂不计划进行火箭外壳有关技术或市场的开发

“果盘子”物丰量足、海鲜花卉购销火热 假日消费市场供需两旺活力足

iGarden与德国赛艇协会达成战略合作

万达知情人士回应王健林被限高:“或因执行层面信息不对称导致”

如何通过银行的产品实现风险对冲?

男子扶摔倒老人反成肇事者被讹3万元,查找十几天监控后自证清白:对方看完说句对不起就走了!

鹭岛兴行 融活聚力|兴业银行“投行万里行”厦门站成功举办

今日热搜:冬小麦可供种量69.1亿公斤 我国今年种子供应有保障

江苏:9月28日24:00起暂停实施汽车置换更新补贴政策-每日简讯

倒计时4天,林芝“雅江杯”王者荣耀电竞大赛线下大战一触即发!

国庆黄金周|假期模式开启,赛德斯 “狩” 系列助你锁定胜利先机

江苏:明起暂停实施汽车置换更新补贴政策

投资者如何理解基金的风险承担能力?

黄柠檬货源紧缺身价猛涨 10月价格或回落

湖南长沙:名师驻站下乡 培养乡村教师-当前焦点

8月工业企业利润由负大幅转正至20.4%,“反内卷”政策成效已初露锋芒

统筹关键变量 创新政务服务 天津和平区持续释放市场活力 今日聚焦

麦克吉尔连胜四局以6-3战胜希金斯,晋级斯诺克英国公开赛决赛|新要闻

广州悦方化妆品有限公司成立 注册资本3万人民币 每日快看

焦点信息:大连鲲城3-1客胜深圳青年人,穆谢奎双响,吴彦澍建功

今日热门!包银高铁包惠段进入运行试验阶段

江龙船艇回应智能无人艇研发项目进展:不知是否能大规模应用

快看:河南秋作物已收获3106万亩

观察:享美好“食”光,品滨州味道!中秋国庆特别优惠启动

天天快报!长安汽车取得热害工况数据计算相关专利

今日热文:碳纳米管商品报价动态(2025-09-27)

视频丨奶茶王座,轮到广西了?|每日热点

焦点快看:“上山下山 食在晋安” 12道“云端”盛宴引爆味蕾

银行的投资组合策略如何应对市场波动? 今亮点

快资讯:2025年9月27日马鞍山市安民农副产品贸易有限公司价格行情

南宁女婿6年每日往返12公里山路!电动自行车载满孝心

如何通过银行的产品实现收益的最大化?

多个城市土拍热度延续 政策利好带来预期改善

邯郸市万泰机械设备有限公司成立 注册资本200万人民币

讯息:莱昂纳多压哨绝杀!海港险取三连胜,6战三镇全胜,连刷5纪录

焦点热文:剑桥科技:下半年主产800G光模块,明年聚焦800G与1.6T

焦点日报:*ST金科(000656.SZ):东方银原已累计增持0.16%股份

收评:创业板指低开低走跌2.60% 算力硬件、游戏方向集体调整_焦点快报

焦点!光束汽车取得车门锁总成等相关专利

波黑专家:应对气候变化的“中国承诺”对人类发展具有根本性意义_速递

焦点快报!中国援巴新医疗队举办微创外科培训

每日热议!鸿富瀚:拟投资14.1亿元建设光伏储能电站项目

纵横通信:公司拥有丰富的网络建设、运维经验和行业数智化解决方案服务能力

热资讯!呈贡区瓦猫令饮品店(个体工商户)成立 注册资本3万人民币

苏州杰源精密机械取得新能源汽车用增程高压线束专利,避免线束电芯的电芯出现缠绕_当前资讯

国家外汇管理局:8月中国外汇市场总计成交24.08万亿元人民币

今热点:新华指数|9月26日当周山东港口焦炭价格指数微幅下跌

苏宁易购双11提前至国庆档,9月30日正式开启

中国足坛最成功的日本教练:带中甲垫底队近6轮狂取11分!

今日热讯:通程控股(000419.SZ):收到长沙银行现金分红款2466万元

保险理赔中的法律支持一般包括什么?

主力资金流入前20:赛力斯流入5.76亿元、万向钱潮流入5.63亿元

金禾实业(002597.SZ):年产8万吨电子级双氧水项目产品已通过国内头部光伏及显示面客户工...

滚动:南向资金净买入超80亿港元

今日热文:创业板指跌2%,全市场超3000只个股下跌

焦点讯息:重塑能源已于9月26日上午起短暂停牌

邯郸联通以5G-A技术助力网络感知提升

视点!人社部副部长李忠:目前基本养老保险基金投资运营规模2.6万亿 比“十三五”末翻了一番

最新消息:桃源水库获评贵州省“美丽幸福河湖”称号

金风科技盘中涨超6% 机构看好风电整机企业的投资机会_当前热点

涨停雷达:汽车零部件+轻量化+新能源客户+德国研发中心 英利汽车触及涨停

港股异动 | 集海资源(02489)高开逾11% 拟折让约19.2%配股净筹约4.62亿港元

小鹏汽车宣布正式进入瑞士、奥地利、匈牙利、斯洛文尼亚和克罗地亚五国市场-快播报

银行的投资产品组合对客户的风险管理有何帮助? 新动态

陕西三原洋宜浩车业取得汽车零件加工车间用污水处理设备专利_今日视点