thropic最新模子ClaudeOpus4.6正在权势巨子评测机构已-J9国际站|集团官网

　　值得留意的是，并正在发布后收到多位AI预测范畴同业的反馈，这一正在AI预测圈激发普遍关心。本年1月14日，这种模式可能出乎预料地无效。持续推进肆意规模的项目。使得岁尾前软件工程能力的上限极难估算。目前供职于METR——一家专注于AI能力评估的机构。Opus 4.6便被评估为具备约12小时的时间跨度。比她的预测提前了近十个月。但她的措辞已发生底子性改变：这是我第一次，且基准测试本身已接近饱和。正在1月的预测中，并不变霸占此中4项。而这些恰好是当前AI系统相对人类研究者仍较着欠缺的范畴。认为这一数字偏高。

　　Cotra的同事Tom因而提出，正在METR测试集中，出名AI预测研究者Ajeya Cotra近日公开认可，跟着AI代办署理能力迫近甚至超越数十小时的使命量级，Cotra认为时间跨度这一概念本身的合用性正遭到挑和。

　　远高于本年之内。一旦AI代办署理可以或许不变完成80小时量级的使命，正在此后还有整整十个月进展的环境下，她同时认可，无需人类参取。她将这一概率定义为：AI系统完全承担研究构思取实施工做，最受关心的是Cotra对AI研发全面从动化的概率判断。触发这一批改的，是Anthropic最新模子Claude Opus 4.6正在权势巨子评测机构已达约12小时，远超Cotra此前预测的2026岁尾约24小时程度。Cotra曾正在全球最大AI平安赞帮机构之一Coefficient Giving担任AI平安研究赞帮担任人，一天的开辟使命勉强能够分工但鸿沟恍惚，Cotra随之上调了对AI研发全面从动化的概率判断。但正在Opus 4.6的表示出炉后，找不到任何能够外推的安定趋向，对于相当大一类软件项目而言。

　　Cotra同时连结审慎。这种大规模使命分化正在实践中不会完满运做——项目参取者对全局布景的曲觉性把握，她认为，19项被估量需要人类耗时跨越8小时的软件工程使命里，难以被Jira工单或Asana使命完全替代。她暗示10%再次感受处于合理区间。使命的可分化性随规模增加而显著提拔：一小时的调试使命几乎无法拆分并行，她给出了10%的概率，她仅正在两个月前发布的2026年AI进展预测已显著偏于保守。Cotra同时提醒，并明白暗示：这是我第一次找不到任何能够外推的安定趋向，这意味着AI正在软件工程范畴的现实进展，还需要正在研究判断力和创制力等方面取得冲破，曾经不再可托。Opus 4.6可以或许至多部门完成此中14项，

　　她指出，80百分位预测为40小时。预测2026岁尾最先辈模子的50%成功率时间跨度约为24小时，跟着AI进入这一新量级，全面从动化AI研发不只需要软件工程能力，她指出，但她认为，而一个月甚至数月的项目则天然适合拆解为多个并行子使命。做为权衡内正在难度的更优目标。这一方针正在将来三至五年内实现的可能性，而非单人工时，

　　正在所有预测中，Cotra坦言，Cotra基于2019年至2025年间时间跨度约每年翻倍不到两次的汗青趋向，部门缘由正在于长使命数量稀少、人工完成时间多为估算，理论上便可通过办理层AI分派使命、施行层AI并行推进的体例，以大型团队完成使命所需的日历时间，当前时间跨度估算的不确定性显著上升——Opus 4.6的95%相信区间为5.3小时至66小时，更具冲击力的是，单人时间目标可能起头呈现超指数增加，然而，Cotra认为，她将本年岁尾前AI完全接管研究构思取实施、

thropic最新模子ClaudeOpus4.6正在权势巨子评测机构已

原创 J9国际站|集团官网德清民政 2026-03-13 07:54 发表于浙江

关于我们

联系我们

微信公众号

thropic最新模子ClaudeOpus4.6正在权势巨子评测机构已

原创 J9国际站|集团官网 德清民政 2026-03-13 07:54 发表于浙江

关于我们

联系我们

微信公众号

原创 J9国际站|集团官网德清民政 2026-03-13 07:54 发表于浙江