2026 年 6 月 14 日,美國邁阿密投資機構 Avory & Co. 的創辦人暨投資長 Sean D. Emory(@_SeanDavid) 在 X 發了一則貼文,配上一張自家做的榜單圖,宣布:「中國發表 GLM 5.2,超越了 Claude 的 Fable。」這句話被中文圈轉成更聳動的版本——「Claude Fable 5 才被禁兩天,中國的 GLM 5.2 就屌打它了?」
巧合得有點戲劇性:Anthropic 最強的 Claude Fable 5 在 6 月 9 日才上線,6 月 12 日就被美國政府以國安為由下令全面下架;隔天 6 月 13 日,中國智譜(Z.ai)發表 GLM 5.2;再隔天,這張「中國開源屌打美國前沿」的圖就出現了。一個被自己政府按下停止鍵,一個高調登場——故事太順了,順到值得我們把它整個拆開來看。

這篇我們分三步走:先忠實整理他到底說了什麼、那張圖畫了什麼;再逐一查證每個數字與每個前提;最後給出 AlphaLab 自己的獨立判讀——不吹捧、不唱衰,只看證據說話。先講結論:這張圖背後的大論點值得認真對待,但「屌打」這個結論,連它自己的圖都撐不起來。
一、他到底說了什麼?
先把原文一字不改地擺上桌。Emory 的貼文其實有兩層:上面一句是「結論」,下面三句才是他真正想講的「論點」。
China announces GLM 5.2 model. Surpassing Claude’s Fable.
Again open source will erode model level economics overtime.
Frontier still getting paid for since companies are racing to build AI native and legacy to build AI embedded.
But eventually you migrate off frontier to cs flow to the software orchestrator and the hardware orchestration.
Sounds like the private and public cloud winning formula.中文:中國發表 GLM 5.2,超越了 Claude 的 Fable。開源會隨時間侵蝕「模型這一層」的經濟價值。前沿模型現在還收得到錢,是因為各家公司正在搶建 AI 原生、舊勢力則忙著把 AI 嵌進產品;但最終你會從前沿模型「下移」到軟體調度與硬體調度那一層。聽起來,就跟當年私有雲/公有雲的致勝公式一樣。
Sean D. Emory(@_SeanDavid), 2026/6/14
注意:他本人寫的是相對保守的「Surpassing(超越)」,而且重點明顯放在後面那段經濟學論點——開源會把利潤從「模型層」往「應用與調度層」推。「屌打」是中文圈加上去的戲劇化翻譯,不是他的原話。這個區別等一下很關鍵。
二、那張圖到底畫了什麼?
貼文配的圖標題是「China open source leads the global model leaderboards(中國開源領先全球模型榜單)」,分成兩欄,綠色=中國開源、灰色=美國封閉模型。GLM 5.2 在兩欄都掛第一:

左欄叫「BS Benchmark」:GLM 5.2 拿 100.0、Claude Opus 4.6 拿 95.0、Qwen 接著;右欄叫「Reasoning Benchmark」:GLM 5.2 拿 42.8、Nemotron 3 Ultra 41.7、Claude Fable 5 只排第三、41.5。看起來鐵證如山——直到你讀到圖最下面那行小字:「For illustrative purposes only(僅供示意)」、「snapshot(快照)」。製圖者自己先聲明了:這不是嚴謹實測。這行字,等一下會比整張圖都重要。
三、先把兩件事實擺上桌
事實 A:GLM 5.2 是真的,但它發表時「一個 benchmark 都沒公布」
GLM 5.2 確實存在:2026 年 6 月 13 日由中國智譜 AI(國際品牌 Z.ai)發表,主打百萬(1M)token 長脈絡與程式碼/Agentic 編碼,model id 是 glm-5.2[1m],承諾以 MIT 授權開放權重(權重與 API 排在發表「隔週」才上線)。這是一個值得認真看待的模型。
但這裡有個關鍵事實,幾乎每一家科技媒體都點出來了:GLM 5.2 在發表當下沒有公布任何 benchmark 分數——沒有 SWE-bench Verified、沒有 LiveCodeBench、沒有 HumanEval。Agent-Wars 的原話是:「Unusually for a flagship launch, it ships with no benchmark numbers at all(對一個旗艦發表來說很不尋常,它完全沒附任何 benchmark 數字)。」AI Weekly 也寫:發表時沒有任何獨立 benchmark 結果,第三方驗證仍在等待中。換句話說,在這張圖出現的 6 月 14 日,連權重都還沒釋出,全世界沒有任何一個人能跑出 GLM 5.2 的分數。
事實 B:Claude Fable 5 不是「輸了」,是「被美國政府拔線」
另一邊的主角更戲劇。Claude Fable 5(建立在底層模型 Mythos 5 之上,此為媒體說法)於 6 月 9 日上線,是 Anthropic 當時最強的部署系統。6 月 12 日傍晚(美東 5:21pm),Anthropic 收到美國商務部(BIS,部長 Howard Lutnick)的出口管制指令,要求禁止「任何外國國民」存取這兩個模型——包括 Anthropic 自己的外籍員工。由於無法即時把外國國民從美國用戶中過濾出來,Anthropic 乾脆對全球所有人關閉了 Fable 5 與 Mythos 5;其餘模型(如 Opus 4.8)不受影響。
理由是國安:官方相信有人找到了「越獄」Fable 5 的方法,能取得它底層的高階網路攻擊能力(據報該技巧是請模型讀一份特定程式庫並「修正所有軟體漏洞」)。Anthropic 並不同意這個處置:
We disagree that the finding of a narrow potential jailbreak should be cause for recalling a commercial model deployed to hundreds of millions of people. We believe this is a misunderstanding and are working to restore access as soon as possible.
中文:我們不認同——一個範圍狹窄、且只是『潛在』的越獄發現,足以構成召回一個已部署給數億人使用的商用模型的理由。我們相信這是一場誤會,正努力盡快恢復存取。
Anthropic 官方聲明,2026/6/12
把時間軸並排:Fable 5 在 6/9 上線 → 6/12 被勒令下架 → 6/13 GLM 5.2 發表 → 6/14 這張「中國屌打」的圖出現。這場「對決」,是在其中一方被自己政府強制請出擂台、還不到兩天的時候宣布的。記住這點。詳細來龍去脈我們另有一篇《Claude Fable 5、Mythos 5 被美國政府下令全球下架:逐字讀懂 Anthropic 聲明》。
四、AlphaLab 的判讀
把事實對齊之後,這張圖的問題就一個一個浮出來了。
判讀 1:決定標題的那兩個數字,正好是全圖唯一查不到出處的數字
這張圖其他列其實大致對得上真實榜單(下一段會證明),唯獨 GLM 5.2 那兩個第一名——左欄一個漂亮整齊的 100.0、右欄一個剛剛好夠贏的 42.8——在任何公開榜單上都找不到。原因前面說過了:GLM 5.2 發表時零 benchmark、權重還沒釋出。一個分數的前提是有人實際跑過測試;而在這張圖誕生的時間點,除了智譜內部,地球上沒有人跑過它。你沒辦法去 benchmark 一個全世界還沒人能執行的模型。
判讀 2:這張圖說的,跟真實的推理榜單剛好相反
右欄那個分數帶(最高約 42.8、其餘擠在 40~42)是 Humanity’s Last Exam(HLE) 的明顯特徵——2026 年取代 MMLU 的前沿推理測驗,頂尖模型大約落在 40 多分。問題是:根據獨立評測機構 Artificial Analysis 的真實 HLE 榜單(約 6/13),排第一的正是 Claude Fable 5,53.3 分,領先全場約 12 分,後面才是 Opus 4.8(約 45.7)、Gemini 3.1 Pro(約 44.7)、GPT-5.4(約 41.6)。

換句話說,這張圖不是把 Fable 5 的領先「縮小」,而是把一個約 12 分的大勝,翻轉成 1.3 分的小敗。至於左欄的「BS Benchmark」也不是亂取的名字,它對應的是真實存在的 BridgeBench「BS-bench/BullshitBench」(測模型對「胡扯前提」的反駁率);而真實榜單上這一項的第一名同樣是 Claude(Opus 4.8 約 95 分)。圖裡 2~7 名大致照抄了真實的、由 Claude 領銜的榜單,只在最上面硬接一列虛構的 GLM 5.2——正是這些「真材料」,讓最頂上那列假數字看起來可信。
判讀 3:就算每個數字都信,「屌打」也誇大了它自己的圖
退一萬步,假設圖上數字全是真的。它宣稱的領先幅度是多少?右欄 42.8 對 41.5,1.3 分,在任何 benchmark 都落在誤差/變異範圍內。「屌打」在中文網路是「壓倒性輾壓」的意思;而這張圖自己的數學,講的是一場擲銅板。標題的音量,遠大於它腳下的數據。
判讀 4:「僅供示意」+ 沒有官方分數 + 對手被下架 = 一個現在無法被驗證的勝利
製圖者自己蓋了「For illustrative purposes only」的章——這不是免責小字,而是一句自白:這些不是實測結果。再疊上兩件事:GLM 5.2 沒有公布任何可供對照的分數;而 Fable 5 因為出口管制,現在全世界的外國國民都無法存取。於是這張圖唯一斷言的那場對決,正好是一場現在誰都跑不出來的對決。在對手被強制請出擂台的那一週宣布獲勝,這不叫戰績。
判讀 5:真正的故事其實是經濟學,而且連 Emory 本人的論點都不是「GLM 贏 Fable」
這是整件事最被忽略、卻最有價值的部分。Emory 真正在講的(他在自家 Investing with Data 一貫的主張)是「價值會往上層流動」:當能力對「多數任務」逐漸商品化,賺錢的位置就會從模型層(按 token 收租)移往應用、工作流、調度與資料層。這是個嚴肅、主流、值得認真辯論的論點——而它講的是利潤落在哪裡,不是「GLM 在某張考卷上贏 Claude 幾分」。用一列造出來的 benchmark 去代言一個關於商業模式的大論點,反而把這個論點講小了。
判讀 6:中國開源真的領先——但領先的是這三件事,不是「榜單」
公平地說,這張圖的方向不是無中生有。中國開源確實在領先,只是要分清楚「在哪一層領先」:

在開放權重陣營、開發者採用度(Hugging Face 一年內新模型的下載/按讚,中國已超過美國)、以及價格這三件事上,中國隊(GLM、Qwen、Kimi、DeepSeek、MiniMax)是真的贏。但在整體能力的綜合第一上:Arena、Artificial Analysis、SWE-bench、Epoch AI 這些中立評測的綜合榜首,目前全是封閉模型(Claude/GPT/Gemini);最強的中國模型大約落後前沿「四個月」(Epoch 的說法)、Arena 上約 30 Elo。差距在縮小,這很真實也很重要——但那是地板在快速抬升,不是天花板被掀翻。
我同意什麼、我存疑什麼
我同意:開源(尤其中國開源)的崛起是這一輪 AI 最真實的結構性變化之一;「模型層毛利會被侵蝕、價值往上層移動」是個站得住腳的長線判斷;對多數日常任務,便宜、可自架、可微調的開放權重已經「夠好」。
我存疑:「GLM 5.2 屌打 Fable 5」這個具體結論——它建立在一張自承「僅供示意」、用了查無出處且與真實榜單相反的數字、又趁對手被下架時宣布的圖上。把「開源最強」直接等於「最強」,是偷換了概念;把一個 1.3 分的宣稱講成「屌打」,是把音量開到了數據的十倍。
五、那就回頭酸 GLM 5.2 嗎?也不必
要小心別犯下跟那張圖一樣的錯。GLM 5.2 這個模型很可能真的不錯——它的前代 GLM-5 曾以 77.8% 拿下當時開源在 SWE-bench Verified 的第一;GLM 5.2 把脈絡拉到 1M、主打 Agentic 編碼、且 MIT 開放權重、第一天就相容 Claude Code/Cline 等工具。問題從來不在模型,而在那張圖。等下週權重釋出、第三方實測出爐,我們會用同一把尺去量它,到時數字說話。
同樣地,也別把 Emory 想成有「做空前沿、做多中國」的盤算。他是真實、有牌照的主動型基金經理人(經營 AVRY ETF),其公開持股裡並沒有中國股票、也沒有放空前沿實驗室的部位——這類圖頂多是替他「價值往上層流動」的世界觀(與他的基金)做行銷,談不上直接的財務利益衝突。指控一個查無實據的動機,會是跟那張圖一樣的毛病。
六、給讀者的三個實用提醒
1. 看到「某模型屠榜」的圖,先找三樣東西:是哪個 benchmark(有沒有名字)、數字能不能連到中立的公開榜單(Artificial Analysis、LMArena、SWE-bench、Epoch)、以及有沒有「illustrative / 僅供參考」這類免責字樣。三者缺一,就先當行銷圖看,別當數據。
2. GLM 5.2 值不值得試?如果你的需求是長脈絡(讀整個 repo/長文件)、Agentic 編碼、想自架或不想被綁 API,等它下週開放權重後非常值得排進候選;但別憑這張圖就相信它「推理屌打 Claude」。要比 AI 寫程式工具,可以先讀我們的《Claude Code vs Codex 客觀比較》。
3. 真正該追的是「開放 vs 封閉」的長線拉鋸,不是單日的標題。地板(開源)每季都在抬升,天花板(封閉前沿)每季也在墊高;下架風波還說明了第三個變數——地緣政治與監管,已經能在 90 分鐘內讓最強模型消失。想了解被下架的主角,可看《Claude Fable 5 是什麼?》與目前仍在線上的最強 Claude《Claude Opus 4.8 完整解析》。
📚 延伸閱讀
- Claude Fable 5、Mythos 5 被美國政府下令全球下架:逐字讀懂 Anthropic 聲明
- Claude Fable 5 是什麼?與 Mythos 5、Opus 4.8 差在哪?
- Claude Opus 4.8 完整解析:史上最強 AI 模型有多猛?
- Claude Code vs Codex 客觀比較:AI 寫程式工具誰更強?
- 當 AI 開始打造 AI:深度解讀 Anthropic〈When AI Builds Itself〉
免責聲明與利益揭露
本文為 AlphaLab 之獨立評論,旨在資訊分享與媒體識讀教育,非投資建議。文中所引貼文與圖表之著作權歸原作者 Sean D. Emory/Avory & Co. 所有,於此基於評論目的引用。GLM 5.2 之 benchmark 在發文時尚未由原廠或第三方公布;本文所引之 HLE、SWE-bench 等排名取自 Artificial Analysis、BenchLM、Epoch、Hugging Face 等公開來源,數值會隨評測更新而變動。AlphaLab 與本文提及之任何公司均無贊助或業配關係。
