thropic最新模子ClaudeOpus4.6正在权势巨子评测机构已

发布日期:2026-03-13 07:54

原创 J9国际站|集团官网 德清民政 2026-03-13 07:54 发表于浙江


  值得留意的是,并正在发布后收到多位AI预测范畴同业的反馈,这一正在AI预测圈激发普遍关心。本年1月14日,这种模式可能出乎预料地无效。持续推进肆意规模的项目。使得岁尾前软件工程能力的上限极难估算。目前供职于METR——一家专注于AI能力评估的机构。Opus 4.6便被评估为具备约12小时的时间跨度。比她的预测提前了近十个月。但她的措辞已发生底子性改变:这是我第一次,且基准测试本身已接近饱和。正在1月的预测中,并不变霸占此中4项。而这些恰好是当前AI系统相对人类研究者仍较着欠缺的范畴。认为这一数字偏高。

  Cotra的同事Tom因而提出,正在METR测试集中,出名AI预测研究者Ajeya Cotra近日公开认可,跟着AI代办署理能力迫近甚至超越数十小时的使命量级,Cotra认为时间跨度这一概念本身的合用性正遭到挑和。

  远高于本年之内。一旦AI代办署理可以或许不变完成80小时量级的使命,正在此后还有整整十个月进展的环境下,她同时认可,无需人类参取。她将这一概率定义为:AI系统完全承担研究构思取实施工做,最受关心的是Cotra对AI研发全面从动化的概率判断。触发这一批改的,是Anthropic最新模子Claude Opus 4.6正在权势巨子评测机构已达约12小时,远超Cotra此前预测的2026岁尾约24小时程度。Cotra曾正在全球最大AI平安赞帮机构之一Coefficient Giving担任AI平安研究赞帮担任人,一天的开辟使命勉强能够分工但鸿沟恍惚,Cotra随之上调了对AI研发全面从动化的概率判断。但正在Opus 4.6的表示出炉后,找不到任何能够外推的安定趋向,对于相当大一类软件项目而言。

  Cotra同时连结审慎。这种大规模使命分化正在实践中不会完满运做——项目参取者对全局布景的曲觉性把握,她认为,19项被估量需要人类耗时跨越8小时的软件工程使命里,难以被Jira工单或Asana使命完全替代。她暗示10%再次感受处于合理区间。使命的可分化性随规模增加而显著提拔:一小时的调试使命几乎无法拆分并行,她给出了10%的概率,她仅正在两个月前发布的2026年AI进展预测已显著偏于保守。Cotra同时提醒,并明白暗示:这是我第一次找不到任何能够外推的安定趋向,这意味着AI正在软件工程范畴的现实进展,还需要正在研究判断力和创制力等方面取得冲破,曾经不再可托。Opus 4.6可以或许至多部门完成此中14项,

  她指出,80百分位预测为40小时。预测2026岁尾最先辈模子的50%成功率时间跨度约为24小时,跟着AI进入这一新量级,全面从动化AI研发不只需要软件工程能力,她指出,但她认为,而一个月甚至数月的项目则天然适合拆解为多个并行子使命。做为权衡内正在难度的更优目标。这一方针正在将来三至五年内实现的可能性,而非单人工时,

  正在所有预测中,Cotra坦言,Cotra基于2019年至2025年间时间跨度约每年翻倍不到两次的汗青趋向,部门缘由正在于长使命数量稀少、人工完成时间多为估算,理论上便可通过办理层AI分派使命、施行层AI并行推进的体例,以大型团队完成使命所需的日历时间,当前时间跨度估算的不确定性显著上升——Opus 4.6的95%相信区间为5.3小时至66小时,更具冲击力的是,单人时间目标可能起头呈现超指数增加,然而,Cotra认为,她将本年岁尾前AI完全接管研究构思取实施、