发布日期:2026-02-09 19:41 点击次数:58

谁能猜想呢,本周的硅谷AI圈,还是演变到了全球喜闻乐道的互喷要领。
启事是周三晚上,Anthropic在他们好意思国东说念主的“春晚”上,放了几条告白,明牌嘲讽OpenAI在ChatGPT里塞告白,平直把讪笑皆打到公屏上了:告白在入侵AI,但不会出目下 Claude。
奥特曼赶快就坐不住了,凌晨六点在X上敲了一篇长文,说Anthropic的告白"彰着不富厚","德州用ChatGPT免费版的东说念主比全好意思用Claude的东说念主还多"。。
不外插告白这事儿照实不是大伙心爱的,不错预见的,褒贬区一边倒地,说他破防了。
哎,光说不明气,否则打一架?
第二天,还真打起来了。不外不是线下真实嗷,是 Anthropic 把 Claude Opus 4.6 摆上了台面。
张开剩余90%OpenAI 那儿也不甘安然,在Opus 4.6上线二十多分钟之后,火速掏出了GPT-5.3 Codex应战。
不外,这波对轰固然吵杂,双方的招式其实不太不异。 Anthropic 此次,是拿出了我方最强的通用模子,而 OpenAI 拿出的 Codex,其实是个专精代码的“偏科生”,对大多数东说念主来说用不到。。总嗅觉声威上就输一头啊。
是以今天世超先撇开阿谁写代码的,如故来聊聊全球更感兴致的通用模子, Claude Opus 4.6 吧。
先说论断,在"干活"这件事上,Opus 4.6 应该不错算目下最强的大模子。
跑分图什么的,大伙推测皆看腻了,也基本皆是分数要比老模子高一丝点,天然也有极少不如的,不外对咱来说,看的如故概括体验嘛。
是以咱们仔细翻了下 Anthropic 官方的先容和 System Card,把几个着实有料的升级给诸位拎了出来。
率先,高下文窗口终于破百万Tokens了。
之前,Opus系列最让东说念主诟病的,便是20万Token的高下文,而邻近 Gemini 的百万高下文早用了快两年了。
而 Opus 4.6 在 MRCR v2 这个评测里拿了76分,咱们俗称“大海捞针”,也便是在巨长高下文里找到咱们想找的东西,而上一代Sonnet 4.5是18.5分,一下提高了四倍,不错说是质变了。
但高下文这玩意,重心不是数字大不大,而是能不成真好用啊,好多模子堪称百万高下文,骨子上塞到后头就开动顾忌混乱,信口胡言了。
是以此次 Anthropic 是有备而来,他们提了一个叫“高下文衰减”的见地,是指高下死不改过万古,详确力分派被稀释,导致模子难以精确捕捉一些眇小的信息。说白了便是 AI 的脑容量被稀释了,读了后头忘前边,在海量信息里找不把稳心。
而Claude目下的管制念念路,叫“高下文压缩”,能在对话达到 Token 阈值时,自动将冗长的历史记载压缩成高浓度的撮要,就好比你追了几百集电视剧脑子不够用了,它不仅帮你把前边那些啰嗦的情节删了给大脑腾内存,还能自动生成前情纲要让你无缝衔尾下一集。
但世超实测了一下,是有点想吐槽的。
而且我试了一下,一次喂广阔高下文的智商,是干不外Gemini的。比如我最近有个扣问物理的技俩,找到了一份天体裁家里希尔的原版文章,在阅读中遭遇了疑问,因为他的一个筹谋效果和牛顿淳厚完全不同!
然后我把这个200多页的书丢给Gemini,问他到底是谁的问题。
Gemini读完,调和得又快又准,何况精确指出了里希尔原文的页码数,一通操作指出,牛顿是对的。
而 Opus 4.6 这边大要是有 bug,一册书根底喂不进去,涌现error。我临了只好给它拆成了两半。
不外拆完就蛮班师的了,它告捷找到了出问题的页码数,还给了精确的推理分析,质地跟Gemini 3 Pro不相高下。
是以智商这块是完全过关的,至于为什么一次喂不进一册书,可能是一种仁慈的防token爆炸机制吧。
天然就这也不够说“干活最强”, Claude目下最强的地点,其实是“实操”的智商。
咋说呢?你就看之前AI圈爆火的干活器具,什么 MCP,Skill,皆是Claude先用上,就连不久前爆火的 Clawdbot (现OpenClaw)目下的默许保举模子皆是Opus 4.6。
便是因为 Opus 这玩意,操作电脑的智商,照实太狠了。
比如我问它,我目下用的涌现器,二手货最低廉能些许钱。
我就只需要给它说一句话,它就能我方调用MCP,纠合我的电脑,检讨我的涌现器型号,再我方上网去闲鱼搜最廉价。
最终搜出来的价钱,跟我我方上闲鱼搜的大差不差,而且最骚的是它还知说念国补,让我别买二手,探究平直加钱换新,全程不需要我搅扰,不错说果然很像真东说念主助理了。
除了这个,Claude Opus的编码智商一直是压着其他家打的,从竞技场名次来看,Opus 4.5还是打遍无对手了,目下又来了个4.6,真遥遥跨越了。
再合作上超模的动手智商,智商传闻还是能失色高档工程师——这评价来自日本乐天公司的AI总司理,说 Opus 4.6 一天之内我方修好并关闭了 13 个 Bug,还看懂了另外 12 个问题是谁认果然,自动把活派给了对应的作为员。
咱也来了点简便的活,让它写个 CS 的 demo 发到我电脑上。
效果照实好用,html文献平直出目下了桌面,点开就能玩,血量、舆图、枪弹皆涌现得完全正确。
{jz:field.toptypename/}临了,Opus 4.6 还有个最顶级的智商,征集信息,而且不是一般的信息,是多样你概略情的,犄角旮旯里的信息,它皆能给你找着。AI 界把这叫作念 BrowseComp,Opus 4.6 强势登顶。
这一丝谢世超正常使用时也深有体会,其他模子搜不到的谍报,Claude 能平直给你定位着手,然后端上来。
比如,差友皆知说念咱差评有个里面梗,便是925,不算出圈,基本唯有咱差友我方知说念。
那可能有些新差友,不知说念这个梗,不错去哪搜呢?咱先用Gemini和GPT试试。
效果无一例外,一说念败下阵来。
效果去问了下Claude,平直一个精确射中,连本日最好皆知说念,本来 Claude 亦然差友吧。。
这亦然为啥世超最近考证传言、征集事实皆用 Claude Opus,省心的不啻一星半点啊。
这一堆子体验下来,Claude Opus 全体给东说念主一种老练冷静的嗅觉,要是你让我遴荐一个“它服务我定心”的AI,我绝不彷徨选的便是Claude。既然这样强,为啥在用户这块老不冷不热啊?世超认为,和 Claude 遴荐的路子脱不开关系。
Anthropic 从一开动就奔着"最聪颖的AI共事"去的,你看它的家具线,Claude Code、Cowork、Excel插件,足够一个办法,帮你把活干完。
而这,亦然雇主最心爱的特点,是以企业客户占了 Anthropic 收入的 80%,这条路照实它最能打。
Claude 的作风这样偏商务风,我认为也跟它办法客户干系。(说是这样说,嗅觉比其他两家颜面多了。。)
而其他两家则是各有各的说法。
ChatGPT 这边,奥特曼的贪念显着不单在作念一个“好职工”了,最近的家具节拍亦然果然猛,光 2026 年到目下就发了ChatGPT Health、Codex 桌面 App、Prism(科研器具),以及刚发布的企业平台 Frontier,还想抢块企业阛阓的蛋糕。 这真理像是,C 端靠用户量和告白,B 端靠平台和生态,两手皆要执,便是不知说念执不执得住了。
至于Gemini,则想靠生态进行一个降维打击,在Gemini里你聪颖谷歌生态里的任何事,回邮件,传网盘,以致看Youtube。再加上几十亿台安卓手机,要是 AI 真像水电不异渗进你每天皆在用的 App 里时,单纯卖模子的公司只可拿头打。
至于谁能笑到临了?
有个网友的褒贬我认为很到位:"2026年最贤惠的作念法不是选一个最好的模子,而是知说念每个模子最擅长什么,换着用。"
说得非常对啊,我认同,但独一的缺点是我钱包有点不合了。
撰文:不咕
裁剪:江江&面线
好意思编:不咕
图片、府上着手:
Anthropic、X
发布于:浙江省

备案号: 