返回文章
🤖 AI·2026.04.17·1 min read

Claude Opus 4.7:硬活儿是真香

最拿手的编程和复杂任务干到了64.3%,自己写代码自己验证,跟打麻将诈胡一个路数。

#AI#Claude#Anthropic#大模型

说实话,Claude Opus 4.7 出来了,4月16号,Anthropic 扔出来的。

最拿手的是硬活儿。代码基准SWE-bench干到64.3%,上代才53.4%,好家伙涨了11个点。搞金融文档分析那类知识工作基准GDPVal-AA,评分1753,GPT-5.4才1674,Gemini 3.1 Pro更惨,1314。

这货能自己写完代码再跑语音识别验证输出,就跟打麻将自己推倒再码一遍确认没诈胡似的,自己查自己。视觉也上了台阶,能看375万像素的图,从54.5%飙到98.5%,以前那种模糊图认错的破事儿基本没了。

Agentic Search那局还落后着,GPT-5.4是79.3%,Opus 4.7 差10个点,别犟,事实就这样。

价格没涨,还是 $5/$25 一百万 token,跟上代一样。Amazon Bedrock、Google Vertex AI、微软 Foundry 全上了。

对写代码的、做复杂任务的,真香;但 AI 军备竞赛想分胜负,还早。

相关文章

分享到: