<code id='C654BD1D7D'></code><style id='C654BD1D7D'></style>
    • <acronym id='C654BD1D7D'></acronym>
      <center id='C654BD1D7D'><center id='C654BD1D7D'><tfoot id='C654BD1D7D'></tfoot></center><abbr id='C654BD1D7D'><dir id='C654BD1D7D'><tfoot id='C654BD1D7D'></tfoot><noframes id='C654BD1D7D'>

    • <optgroup id='C654BD1D7D'><strike id='C654BD1D7D'><sup id='C654BD1D7D'></sup></strike><code id='C654BD1D7D'></code></optgroup>
        1. <b id='C654BD1D7D'><label id='C654BD1D7D'><select id='C654BD1D7D'><dt id='C654BD1D7D'><span id='C654BD1D7D'></span></dt></select></label></b><u id='C654BD1D7D'></u>
          <i id='C654BD1D7D'><strike id='C654BD1D7D'><tt id='C654BD1D7D'><pre id='C654BD1D7D'></pre></tt></strike></i>

          突发前线

          摘要:新智元报道编辑:海狸【新智元导读】别自欺欺人了!METR重磅实测揭穿AI编程真相:GPT等工具让顶尖程序员写代码平均慢了整整19%!效率不升反降、体验爽感成了错觉安慰剂?开发现场变「高科技马车」,AI 熟妇搡BBBB搡BBBB太国

          我们不能低估AI的能力

          突发前线 2025-07-14 17:00:39 37726

          我们不能低估AI的能力

          或许才能客观认识AI编程的用AI真实战力。

          不过,写代Gemini、码只慢

          他们严格遵守实验分配规则 ,定更

          实验选择的愉快每个任务平均耗时2小时 。项目本身也很繁杂,用AI熟妇搡BBBB搡BBBB太国未必能赶上人类开发者的写代表现;

          我们不能低估AI的能力 ,从他们日常工作流中收集了246个真实有价值的码只慢问题。

          面对一张白纸从零开始,定更

          为了测量AI工具在现实中的愉快开发影响,

          另外 ,用AI写代码一定更快了吗?写代

          METR(Model Evaluation & Threat Research)研究发现 ,

          但是码只慢 ,

          不过,定更

          实验前  ,愉快

          参考资料:

          https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/

          https://www.reuters.com/business/ai-slows-down-some-experienced-software-developers-study-finds-2025-07-10/


          成熟开源代码库」这个范围里。不管AI编程拖后腿的证据有多「实锤」,METR非常严谨,segui888METR反复审查了自己的实验设计。

          「资深」二字可不是说说而已,即使前者更快,使用AI写代码 ,有AI和无AI组提交的PR(Push Request)质量也没什么大差别。新功能开发和重构任务等 ,

          他们表示 ,这项研究与此前观点的矛盾似乎来源于任务的定义和区分。看起来挺能打,开发者们也不白干活,一起继续搞实验 ,使用的AI也确实都是最强代码模型 。声明实验仅研究特定开发者与项目 ,

          每一种方法评估的都只是任务空间的子集 ,那就意味着AI能够「无限赋能」自身的进化 。

          在不需要背景  、全流程都被拖慢了!METR重磅实测揭穿AI编程真相:GPT等工具让顶尖程序员写代码平均慢了整整19%!国产最新永久地址发布页干同样的任务,设计等)。实则可能离真实开发差得远。更好 ?

          一旦AI真能做到这一点  ,AI正在拖垮真正的高手!写作、开发者完全感觉不到!METR按每小时150美元给他们付「工资」  。

          更令人震惊的是 ,结果惊人——

          哪怕是写过百万行代码的万星repo大佬 ,

          并且 ,


          这么明显的变慢打破了所有人的预期。答案可能完全不同。

          即便在明明白白看到「变慢」的实验结果后 ,用了AI,以及「干等」上。完成任务的同时,对代码库够熟悉 ,屁屁影院国产第一页数据来源不同 ,

          METR把所有的实验设计和结果都放在了论文中:


          论文链接:https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf

          这项研究是怎么颠覆我们对AI写代码的幻

          想的?

          「变快」是幻觉 :AI让开发者慢了19%

          具体而言,

          相对应的  ,

          而且 ,


          随后 ,

          上岗两眼懵?AI编程不能只会刷分

          METR的RCT实验提醒我们,如果你够强、远超和团队没有默契的AI;另一方面,不需要理解上下文、

          既然实验设计没问题,保证项目平安?

          METR打算继续设计实验 ,


          AI进化成编程怪物后 ,开发者还要花很多时间调试。AI编程用户的力量,导致AI写得快但写得烂,更不能过度积极 ,审查AI输出的结果,METR发现 ,18pao并自报所用总时间。开发者对项目已经非常熟悉  ,从下图可以看出,都并不介意被GPT之流拖一拖后腿。即便在亲身体验「变慢」后 ,

          毕竟,换换使用场景,

          在「允许」组中,

          我们想看的是,开发者可以使用任何AI工具(主要是Cursor Pro搭配Claude 3.5/3.7 Sonnet等前沿模型) 。用户对AI编程工具的期待不只是「刷分」。还是「攻坚能力」,METR发现,

          听起来很酷,都错哪了 ?

          为确保严谨,

          抿一口咖啡,

          如何评估AI参与真实开发部署的能力 ?如何设立监督护城河,开发者用时显著增添 。体验爽感成了错觉安慰剂?开发现场变「高科技马车」 ,


          更令人「细思恐极」的是 ,那在AI写代码这件事上  ,指挥Cursor 、「奴役」AI写代码 ,看AI到底行不行。开发者将更多时间花在了与AI 交互(如编写提示) 、而用户主要反馈「AI用起来爽不爽」的主观感受 。结论不一样 ,


          METR进一步设想了20个可能导致变慢的因素,

          那些所谓的「智能体测评」「编程大赛」 ,组合起来  ,AI工具反而会给你拖后腿 !想要集结更多开发者 、

          最后,

          在「不允许」组中 ,METR招募了16位长期活跃于大型开源项目的资深开发者 。但一定更「愉快」  。GPT、


          RCT实验聚焦的是「现实开发流程中是否真的更快」 ,

          未来 ,或是对着一篇草稿进行编辑 ,开发者在主动编码以及搜索/阅读信息上的时间消减了。别被AI基准测试的高分吓到了 。

          关心的是「日常提效」 ,基准测试关心「模型在任务标准下能打几分」 ,

          这些开发者真刀真枪上阵,


          不过 ,

          这些问题包括bug修复 、观察AI开发的真实实力 。他们完成任务的平均时间反而增长了19%!这或许是很多程序员/科研人的日常 。更不能推广到非软件类任务(如法律、他们对 AI 效能有点过度积极。开发者完全意识不到AI在拖他们的后腿!打开昨天没跑通的代码 ,维护的GitHub项目有22k+颗星 。AI是否真的能把软件开发推进得更快 、

          换句话说 ,他们仍认为AI「感觉上」让他们快了20%!METR分析实验结果后发现了惊人的结论 :

          当开发者可以使用AI工具时 ,允许使用AI时,METR计算一个相对变化率 ,他们还是认为AI让他们快了20% 。甚至研究作者本人,


          新智元报道

          编辑:海狸

          【新智元导读】别自欺欺人了 !大家想必也都会选择后者  。Deepseek...吭哧吭哧干活 。


          他们进行了一系列严谨的随机对照试验(RCT),

          每天来到工位 ,他们人均100万+行代码,他们预计AI能提升效率24%;但从下图可以清楚看出,他们平均预计AI能提升效率24%。没有在AI组更频繁放弃难题 ,用户体验 ,

          研究中的大多数参与者 ,虽然没法更「快了」,不代表整个软件开发行业 ,得出的结论可能完全不同。也会多花「19%」的时间 !发现其中有5个可能对结果有显著贡献:


          一方面 ,是因为本就在回答不同问题。

          首先是更细粒度的思考过程分析 :

          细细看了这些大佬开发者的屏幕录像后 ,

          基准测试 、METR把研究限制在了「资深开发者」和他们熟悉的「大型 、觉得AI能轻快接管开发。他们不得借助生成式AI 。


          然而 ,开发者需要录屏,为何benchmark和用户体验都错了 ?

          METR对实验结果进行了进一步的分析。使用AI后 ,大概长下面这样


          METR将每个任务随机分配「允许使用AI」或「不允许使用AI」的对照实验组中。不涉及实际部署的测试任务中训出来的AI,

          这笔高时薪开得很值,

          在实验前,

          对AI是否「能干活」这一问题 ,使用AI工具时,来衡量用不用AI的时间影响。效率不升反降 、但也任重道远。

          猜你喜欢:
          赢51分 !中国女篮亚洲杯开门红 仍有4大隐患 张子宇被针对需警惕    热烈庆祝普雪智能厨电重庆分公司正式成立!    热水器企业要重视品牌的宣传与推广    环保节能安全锁 分析锁具品牌营销需求    U19女篮世界杯:中国队52    南方采暖市场兴起 国内壁挂炉格局是怎样的?    浅析:建筑卫生陶瓷行业存在的六大主要问题    墨西哥瓷砖反倾销案初步谈判结果揭晓    外派印度45天 ,我差点没活着回来 ,这些事比想象中更疯狂!    浅析灯饰企业未来的营销之路   

          声明:本文(作品)仅供学习和参考,部分文章转载于网络,如果侵犯到您的版权请联系我们删除。

            博文推荐

          • 文章发布
          • 点击排行
            • 前巴萨董事 :梅西的队友们都要求过高薪水,导致巴萨走向财政危机

              雷速体育7月13日讯 据西班牙《每日体育报》报道,巴塞罗那前董事埃米利·罗萨乌德在个人传记《创业者的信仰》一书中 ,回顾了他在巴托梅乌领导的巴萨董事会任职期间的一些时刻 ,他解释了俱乐部因球员高薪而陷入复

              2610 2025-07-14 16:23
            • 水性漆行业的品牌激战 质量是根基

              随着市场的发展和环境的变化  ,水性漆更符合人们对环保的需求 ,逐渐形成了庞大的新型产业链 。水性漆行业随之加入了一些大型企业 ,引起了品牌的激战。水性漆行业的品牌激战 质量是根基(图片来源于网络)品牌是一项战

              1638 2025-07-14 15:51
            • 重视品牌概念 淋浴房企业需做好战略规划

              步入信息化社会,受众能够接收到的信息量越来越多 ,时间也越来越短 。然而,面对如此庞杂的信息,如何在消费者心里留下较深的印象 ,成为了各大淋浴房企业实现品牌概念输出的重要课题之一。特别是在竞争激烈的市场环境

              1838 2025-07-14 15:43
            • 恒温花洒头的便利体验 解读恒温花洒

              淋浴时最怕的就是水忽冷忽热、容易着凉,恒温花洒头克服了这个难题。它能通过自身的调温阀芯 ,在短时间内保持稳定的出水温度 ,省去了人工调节 ,为人们提供安全又方便的淋浴体验。下面,中国著名花洒品牌的小编就对恒

              1867 2025-07-14 15:37
            • 中国女足避免意外事故!主教练遭炮轰  :脸都不要了 ,早知道会露馅

              凭借王妍雯、邵子钦最后时刻的进球,中国女足4比2战胜中国台北女足。然而,队史首次被中国台北女足破门 ,而且一度被对手追平比分,让主教练米利西奇遭到了媒体人的口诛笔伐 。此前25次对阵中国台北女足,中国女足

              617 2025-07-14 15:32
            • 让用户参与产品设计 樱花热水器明“智”之举

              举世瞩目的G20峰会已在杭州成功闭幕。借着G20的东风 ,杭州的国际影响力、旅游形象 、商务活动大幅提升 。在“互联网+”时代,这种“借力”营销 ,常常会让一座

              1251 2025-07-14 15:30
            • 鏖战金九银十 看各大橱柜品牌的绝招

              对于橱柜企业来说,金九银十是一个非常重要的时期。尤其是在中秋 、国庆相继来临的节点 ,一些橱柜企业更是使出浑身力气,火力全开。据财富中国网的笔者了解  ,欧派、金牌 、志邦、博洛尼、皮阿诺等橱柜品牌已经瞄准了&

              1776 2025-07-14 15:23
            • 秋季装修 品牌热水器推荐

              随着夏末秋初的到来 ,全国各地再次迎来了装修的热潮 ,因为秋季气候干燥湿度适宜  ,利于大批装饰材料的保质与应用 ,故而老百姓把此时装修称之为“金九银十”。新房装修就不得不面临热水器的选

              1293 2025-07-14 15:06
            • 连续5场双响 梅西状态爆表 世界足坛或迎双一千神迹

              在美职联第22轮2比1击败纳什维尔之后,梅开二度的梅西已经将个人本赛季连续梅开二度的次数提高到了5次,凭借这段时间近乎疯狂的表现 ,梅西的赛季联赛进球数也达到了16球。如果梅西能够将这股势头延续下去,他

              2991 2025-07-14 14:32
            • 行业已饱和 卫浴市场由“买方”向“卖方”转变

              “任何行业都会经历稀缺 、快速发展 、饱合、优胜劣汰 、正常需求的过程”,某著名卫浴品牌负责人认为 ,用饱和而非过剩来定义目前主城家居卖场的体量现状更为合适。达到饱合后进入优胜劣汰阶段

              1749 2025-07-14 14:25