2026 年 6 月 17 日,以中立評測聞名的獨立機構 Artificial Analysis 發布了一篇報告——〈GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index〉。標題直接把話講死:來自中國北京的 Z.ai(前身為智譜 AI),用一個任何人都能免費下載的開放權重(open-weights)模型 GLM-5.2,登上了開源模型的王座。同一天,備受信賴的開發者 Simon Willison 也寫下 〈GLM-5.2 is probably the most powerful text-only open weights LLM〉;科技媒體 VentureBeat 則打出 「以 1/6 的成本、在多項長程式設計基準上勝過 GPT-5.5」 的標題。
耐人尋味的是,這件事發生在一個很特別的時間點:就在幾天前,當時全世界最強的模型 Claude Fable 5,才剛被美國政府一紙出口管制令送下全球線——而 GLM-5.2 的官方文件,卻大方寫著「no regional limits(無區域限制)」。一邊是封閉模型因國安被斷網,一邊是開放權重宣告「無國界」。這不只是一次模型發表,更像一面鏡子。

這篇文章會做三件事:① 忠實整理原文與 GLM-5.2 的真實面貌;② 逐一查證那些漂亮的數字到底有沒有水分(哪些是獨立評測、哪些只是原廠自評);③ 給出獨立判讀——它到底是不是真的「逼平前沿」,以及你該不該用、怎麼用。
一、先把事實擺上桌:GLM-5.2 到底是什麼
GLM-5.2 是 Z.ai(智譜)GLM 系列的最新旗艦,2026 年 6 月 13 日先對「程式碼訂閱方案」用戶開放,6 月 16 日把完整權重以 MIT 授權上架到 Hugging Face。規格上,它是一個約 7,530 億參數的混合專家(MoE)模型,每次推論僅啟用約 400 億參數;純文字輸入(沒有視覺能力,Z.ai 的多模態另有不開源的 GLM-5V 系列);上下文一口氣拉到 100 萬 token(前代 GLM-5.1 是 20 萬)。架構上主打名為 IndexShare 的稀疏注意力共享,官方稱在百萬 token 長度下把每 token 運算量降低約 2.9 倍。
關於 Z.ai 本身,有幾個背景值得先記住,因為它們是理解這篇報導的鑰匙:這家公司 2019 年從清華大學的知識工程實驗室分拆出來,2026 年 1 月剛在香港掛牌(2513.HK),估值約 67 億美元,被稱為「全球第一家上市的大型語言模型公司」;而早在 2025 年 1 月,它就被美國商務部列入實體清單(Entity List),是第一家被列管的中國 LLM 公司。一家被美國技術封鎖的公司,選擇把最強模型免費開源——這個選擇本身,就是故事的一部分。
二、外部證據:獨立評測機構怎麼說
先看最有份量、也最該採信的——獨立第三方評測。Artificial Analysis 不是 Z.ai,它跑的是一套公開、跨模型一致的基準。它的結論是:
GLM-5.2 is the leading open weights model on the Intelligence Index v4.1. At 51, it leads MiniMax-M3 (44), DeepSeek V4 Pro (max, 44) and Kimi K2.6 (43).
中文:GLM-5.2 是 Intelligence Index v4.1 上排名第一的開放權重模型。以 51 分領先 MiniMax-M3(44)、DeepSeek V4 Pro(44)與 Kimi K2.6(43)。
Artificial Analysis,原文

這裡有第一個必須誠實標註的地方:「第一」是「開源陣營的第一」,不是「全世界第一」。在完整榜單上,GLM-5.2 仍排在 GPT-5.5、Claude Opus 4.8 之後。把「open-weights 第一」講成「最強模型」,是這波報導最容易出現的誤讀。
不過,真正讓人坐直身子的,是 Artificial Analysis 視為「真實世界代理任務」首要指標的 GDPval-AA v2:
At 1524 it places ahead of MiniMax-M3 (1418) and DeepSeek V4 Pro (max, 1328), and is effectively level with GPT-5.5 (xhigh, 1514).
中文:GLM-5.2 拿到 1524 分,領先 MiniMax-M3(1418)與 DeepSeek V4 Pro(1328),並與 GPT-5.5(xhigh,1514)實質打平。
Artificial Analysis,原文

這一刀下得很重:一個你能整包下載、自己架的開源模型,在貼近真實工作的代理任務上,打平了 OpenAI 最新的旗艦 GPT-5.5。一年前還沒人敢這樣想。
三、價格:便宜是真的,但沒有你想的那麼便宜
GLM-5.2 的 API 定價是每百萬 token 輸入 1.40 美元、輸出 4.40 美元。Simon Willison 把它和對手擺在一起:
I’ve been trying it out via OpenRouter… almost all of which are charging $1.40/million for input and $4.40/million for output. For comparison, GPT-5.5 is $5/$30 and Claude Opus 4.5-4.8 is $5/$25.
中文:我透過 OpenRouter 試用……幾乎所有供應商都收每百萬輸入 1.40 美元、輸出 4.40 美元。對照之下,GPT-5.5 是 5/30 美元,Claude Opus 4.5–4.8 是 5/25 美元。
Simon Willison,原文
純看單價,輸出 4.40 對 GPT-5.5 的 30 美元,大約就是「1/6」——VentureBeat 標題沒有騙人。但這裡藏了一個魔鬼:

便宜的單價 ≠ 便宜的總價。Artificial Analysis 同時指出,GLM-5.2 非常吃 token:每道題平均燒掉約 43,000 個輸出 token(其中約 37,000 是「推理」),是同級開源模型中效率最差的之一。換算下來,它每完成一題的成本約 0.46 美元,反而高於 DeepSeek V4 Pro(0.05)、MiniMax-M3(0.18)、甚至自家前代 GLM-5.1(0.25)。單價砍到 1/6,但話很多,省下來的錢有一部分又被它自己講回去了。
四、那些「勝過 GPT-5.5」的程式碼數字,要打折看
VentureBeat 整篇報導最吸睛的,是 GLM-5.2 在長程式設計基準上對 GPT-5.5 的連續勝場:
SWE-bench Pro: GLM-5.2 scored 62.1, decisively beating GPT-5.5 (58.6) and its own predecessor, GLM-5.1 (58.4).
中文:SWE-bench Pro:GLM-5.2 拿 62.1,明確勝過 GPT-5.5(58.6)以及自家前代 GLM-5.1(58.4)。
VentureBeat,原文
SWE-bench Pro、FrontierSWE、MCP-Atlas、PostTrainBench、SWE-Marathon……一連串數字確實都是 GLM-5.2 領先。但我必須把一件事講清楚,這也是查證後最關鍵的發現:這些數字幾乎全部是 Z.ai 自己公布的。VentureBeat 用的那幾張對比長條圖,圖說上明明白白寫著「Credit: z.ai」;只有少數項目(如 FrontierSWE 由 Proximal、SWE-Marathon 由 Abundant AI)有外部評測者參與,而業界最常用的中立基準(SWE-bench Verified、LiveCodeBench、Aider polyglot)在發表時並沒有公布。
更要補上原報導自己也承認的另一半:在這些任務上,GLM-5.2 幾乎全面落後 Claude Opus 4.8。VentureBeat 的原文是這麼寫的:
While GLM-5.2 trails Claude Opus 4.8 and GPT-5.5 slightly on raw Terminal-Bench 2.1 scores (81.0 versus 85.0 and 84.0, respectively), it significantly outscores Google’s Gemini 3.1 Pro (74.0).
中文:雖然 GLM-5.2 在 Terminal-Bench 2.1 原始分數上小幅落後 Claude Opus 4.8 與 GPT-5.5(81.0 對 85.0、84.0),但明顯勝過 Google 的 Gemini 3.1 Pro(74.0)。
VentureBeat,原文
所以公允的講法是:「依 Z.ai 自評,GLM-5.2 在多項基準勝過 GPT-5.5;但整體仍不及 Claude Opus 4.8,且這些程式碼數字尚待第三方獨立複現。」把「自評」當成「公認事實」,正是這類新聞最常見的失真。
五、Simon Willison 的實測:優秀的鵜鶘、失望的負鼠
比起冷冰冰的跑分,我更喜歡 Simon Willison 的角度。他長期用「畫一隻騎腳踏車的鵜鶘 SVG」當作模型的試金石。他對 GLM-5.2 的定位是 「probably the most powerful text-only open weights LLM」——最強的純文字開源模型。他特別點出一個反直覺的觀察:
I’m impressed to see it rank so highly given the lack of image input, which I had incorrectly assumed was a key part of building a truly great frontend coding model.
中文:它沒有影像輸入能力,卻能排這麼前面,讓我很驚訝——我原本以為「看得懂圖」是打造頂尖前端程式碼模型的關鍵,看來我錯了。
Simon Willison,原文
他實測 GLM-5.2 在 Code Arena 的 WebDev 排行榜上排到第二,僅次於 Claude Fable 5——一個純文字模型,在「做網頁前端」這種你以為很吃視覺的任務上拿到亞軍。但他也很誠實地補了一刀:請它畫「騎電動滑板車的負鼠」時,結果「比 GLM-5.1 退步一大截,連動畫都沒做」。換句話說,這個模型很強,但強得不平均——這恰恰是一個好提醒:跑分很漂亮,不代表每件事都做得好。
六、原文沒明講、但你必須知道的背景:Fable 5 為什麼不在榜上
回到開頭那張 Intelligence Index 圖——最左邊那根打著斜線、標註「Not currently available」的 Claude Fable 5。它本來是全榜第一(60 分),為什麼「無法使用」?
因為就在 GLM-5.2 開源的前幾天,美國政府(據 Fortune、National Law Review 報導,發令單位為商務部)以國安為由發出一道出口管制指令,禁止任何外國國民(包括人在美國境內者、甚至 Anthropic 自家的非美籍員工)使用 Claude Fable 5 與 Mythos 5。由於無法在每次請求即時核實使用者國籍,Anthropic 索性對全球所有用戶下線這兩款模型。這件事 AlphaLab 另有專文 逐字讀懂 Anthropic 的聲明。Anthropic 官方的說法是:
The net effect of this order is that we must abruptly disable Fable 5 and Mythos 5 for all our customers to ensure compliance.
中文:這道命令的實際結果是:為了合規,我們必須對所有客戶突然停用 Fable 5 與 Mythos 5。
Anthropic,官方聲明
這帶出一個 GLM-5.2 故事裡最尖銳、卻最少被提起的角度:它在 Arena 上的高名次,有一部分不是「打贏」了最強對手,而是最強對手「被美國政府拔線」了。VentureBeat 自己也是用這個對比在賣點子——當美國頂尖封閉模型面臨「可能隨時被中斷」的監管風險時,一個寫著「no regional limits、technical access without borders」的 MIT 開源模型,對企業就格外有吸引力。能力是一回事,但這次事件的另一半,其實是地緣政治。
附帶一個必須打預防針的傳聞:有第三方媒體報導 GLM-5.2「完全用華為晶片、未用任何 Nvidia 訓練」。這個說法目前查無 Z.ai 一手來源證實——Z.ai 的官方部落格與開發文件完全沒提訓練硬體。真正有官方聲明佐證「全程國產晶片、未用 Nvidia」的,是 2026 年 1 月的另一個模型 GLM-Image(多模態圖像模型),而不是 GLM-5.2。在 Z.ai 親自說明之前,這條請當成「未經證實的推測」看待,別當事實。
七、AlphaLab 的判讀:這到底是不是一個分水嶺?
判讀一:開源真的追上了「大部分」前沿,但「差距」取決於你怎麼量
一年前,最強開源模型(DeepSeek V3)在 Intelligence Index 上落後封閉旗艦約 13 分;如今 GLM-5.2 把差距縮到約 4–6 分,並在真實任務指標上打平 GPT-5.5。這是貨真價實的進步。但要誠實:用更嚴謹的長期追蹤,故事沒那麼一面倒——Epoch AI 的能力指數顯示開源仍落後封閉前沿「約 4 個月」,而且這個落後在 2026 上半年不縮反微幅擴大(封閉前沿自己也在加速)。所以正確的句子不是「開源超車了」,而是「開源把差距壓到了幾個月之內」。
判讀二:「第一」是有但書的第一
GLM-5.2 是開源第一、全榜第四;它在「一項」代理任務指標上打平 GPT-5.5,不是全面追平;在硬核推理、知識正確性(AA-Omniscience 僅 4 分、幻覺率 28.1%)與多模態上,它和最頂尖的封閉模型仍有明顯距離。它了不起,但不是「最強」。
判讀三:別被「便宜」與「開源」兩個詞催眠
「便宜」要看總價不是單價——它很吃 token,每題成本反而高於好幾個更省的對手。「開放權重」也不等於「你跑得動」:完整 BF16 權重約 1.5TB,自架要約 8 張資料中心級 GPU,個人幾乎不可能在家跑。而如果你圖方便改用 Z.ai 的雲端 API,你的程式碼與提示會經過受中國《國家情報法》約束的伺服器——美國國土安全部曾就此示警。「下載權重自架」能避開這條資料風險,「用託管 API」則不行。這兩件事要分開看。
判讀四:我同意什麼、我存疑什麼
我同意:GLM-5.2 是開源陣營一個實打實的里程碑——第一次有開源模型在獨立機構的真實任務評測上與 GPT-5.5 並肩,還是 MIT 授權、價格只要零頭。對成本敏感、需要長上下文、或想把資料留在自家機房的團隊,它是 2026 年中最值得認真評估的選項之一。
我存疑:那些最漂亮的程式碼勝場目前仍是原廠自評,需要第三方複現;「逼平 GPT-5.5」是單一指標上的打平,不是全面超越;而它登頂榜單的時間點,恰好是最強對手被政策拔線的時間點。這個故事一半是能力的真實躍進,另一半是地緣政治的偶然——兩者都別忽略。
八、那麼,你該怎麼用 GLM-5.2?
如果你是開發者或團隊,幾個務實的判斷:
- 適合:成本敏感的程式碼/代理工作流。它能直接掛進 Claude Code、Cline、Kilo Code 等工具,1/6 的單價對高用量場景很有感。想了解怎麼用 AI 跑實際任務,可參考 這篇 Claude Code 實戰。
- 適合:需要超長上下文(百萬 token)、或必須把資料留在自有基礎設施——這時 MIT 開放權重 + 自架,是封閉 API 給不了的自由。
- 要保留:需要視覺/多模態,它做不到(純文字);最硬的推理與知識正確性,封閉旗艦仍領先;對資料極敏感者,務必自架而非用雲端 API。
- 別只看一張榜單:跑分(尤其原廠自評)會騙人。真正的判準是把它接進你自己的工作流跑兩週,看它在「你的」任務上的穩定度。
一句話總結:GLM-5.2 不是「最強模型」,但它可能是「最划算的夠強模型」——而它出現的這一刻,剛好也提醒我們,AI 的競賽從來不只在實驗室裡,也在政策與國界之間。
📚 延伸閱讀
- Fable 5 才被禁兩天,中國 GLM-5.2 就「屌打」它了?拆穿那張瘋傳的榜單
- Claude Fable 5、Mythos 5 被美國政府下令全球下架:逐字讀懂 Anthropic 的聲明
- Claude Fable 5 是什麼?與 Mythos 5、Opus 4.8 差在哪
- LLM 是什麼?零基礎白話搞懂大型語言模型運作原理
- Claude Code 財經數據實戰:一行指令讓 AI 抓即時股價與財報
免責聲明與利益揭露:本文為 AlphaLab 對 Artificial Analysis、Simon Willison、VentureBeat 等公開報導的獨立解讀與評論,文中圖表版權屬 Artificial Analysis(評論性引用)。所有基準數據以原始來源為準,已盡力標註「獨立評測」與「原廠自評」之別;模型表現與定價可能隨時間變動,請以官方最新公告為準。本文不含任何業配或贊助,亦非投資或採購建議。
