GLM-5.2 是什麼？Z.ai 開放權重逼平 GPT-5.5，登上 Artificial Analysis 開源第一（2026）

最後更新：2026年6月22日 · Terry Chen

GLM-5.2 開源模型逼平 GPT-5.5：Z.ai 開放權重登上 Artificial Analysis 第一

2026 年 6 月 17 日，以中立評測聞名的獨立機構 Artificial Analysis 發布了一篇報告——〈GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index〉。標題直接把話講死：來自中國北京的 Z.ai（前身為智譜 AI），用一個任何人都能免費下載的開放權重（open-weights）模型 GLM-5.2，登上了開源模型的王座。同一天，備受信賴的開發者 Simon Willison 也寫下〈GLM-5.2 is probably the most powerful text-only open weights LLM〉；科技媒體 VentureBeat 則打出「以 1/6 的成本、在多項長程式設計基準上勝過 GPT-5.5」的標題。

耐人尋味的是，這件事發生在一個很特別的時間點：就在幾天前，當時全世界最強的模型 Claude Fable 5，才剛被美國政府一紙出口管制令送下全球線——而 GLM-5.2 的官方文件，卻大方寫著「no regional limits（無區域限制）」。一邊是封閉模型因國安被斷網，一邊是開放權重宣告「無國界」。這不只是一次模型發表，更像一面鏡子。

Artificial Analysis 文章〈GLM-5.2 is the new leading open weights model〉 — 點擊圖片可前往 Artificial Analysis 閱讀原文〈GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index〉。圖／Artificial Analysis

這篇文章會做三件事：① 忠實整理原文與 GLM-5.2 的真實面貌；② 逐一查證那些漂亮的數字到底有沒有水分（哪些是獨立評測、哪些只是原廠自評）；③ 給出獨立判讀——它到底是不是真的「逼平前沿」，以及你該不該用、怎麼用。

Table of Contents

一、先把事實擺上桌：GLM-5.2 到底是什麼

GLM-5.2 是 Z.ai（智譜）GLM 系列的最新旗艦，2026 年 6 月 13 日先對「程式碼訂閱方案」用戶開放，6 月 16 日把完整權重以 MIT 授權上架到 Hugging Face。規格上，它是一個約 7,530 億參數的混合專家（MoE）模型，每次推論僅啟用約 400 億參數；純文字輸入（沒有視覺能力，Z.ai 的多模態另有不開源的 GLM-5V 系列）；上下文一口氣拉到 100 萬 token（前代 GLM-5.1 是 20 萬）。架構上主打名為 IndexShare 的稀疏注意力共享，官方稱在百萬 token 長度下把每 token 運算量降低約 2.9 倍。

關於 Z.ai 本身，有幾個背景值得先記住，因為它們是理解這篇報導的鑰匙：這家公司 2019 年從清華大學的知識工程實驗室分拆出來，2026 年 1 月剛在香港掛牌（2513.HK），估值約 67 億美元，被稱為「全球第一家上市的大型語言模型公司」；而早在 2025 年 1 月，它就被美國商務部列入實體清單（Entity List），是第一家被列管的中國 LLM 公司。一家被美國技術封鎖的公司，選擇把最強模型免費開源——這個選擇本身，就是故事的一部分。

二、外部證據：獨立評測機構怎麼說

先看最有份量、也最該採信的——獨立第三方評測。Artificial Analysis 不是 Z.ai，它跑的是一套公開、跨模型一致的基準。它的結論是：

GLM-5.2 is the leading open weights model on the Intelligence Index v4.1. At 51, it leads MiniMax-M3 (44), DeepSeek V4 Pro (max, 44) and Kimi K2.6 (43).
中文：GLM-5.2 是 Intelligence Index v4.1 上排名第一的開放權重模型。以 51 分領先 MiniMax-M3（44）、DeepSeek V4 Pro（44）與 Kimi K2.6（43）。
Artificial Analysis，原文

Artificial Analysis Intelligence Index v4.1：GLM-5.2 以 51 分居開源第一。但請看清楚——它在**全榜上其實只排第四**，前面還有 GPT-5.5 xhigh（55）、Claude Opus 4.8（56）以及左側那根打著斜線、標註「Not currently available」的 Claude Fable 5（60）。後面那段地緣政治，正是它缺席的原因。圖／Artificial Analysis

這裡有第一個必須誠實標註的地方：「第一」是「開源陣營的第一」，不是「全世界第一」。在完整榜單上，GLM-5.2 仍排在 GPT-5.5、Claude Opus 4.8 之後。把「open-weights 第一」講成「最強模型」，是這波報導最容易出現的誤讀。

不過，真正讓人坐直身子的，是 Artificial Analysis 視為「真實世界代理任務」首要指標的 GDPval-AA v2：

At 1524 it places ahead of MiniMax-M3 (1418) and DeepSeek V4 Pro (max, 1328), and is effectively level with GPT-5.5 (xhigh, 1514).
中文：GLM-5.2 拿到 1524 分，領先 MiniMax-M3（1418）與 DeepSeek V4 Pro（1328），並與 GPT-5.5（xhigh，1514）實質打平。
Artificial Analysis，原文

GDPval-AA v2 真實世界工作任務排行榜：GLM-5.2（1524）小幅超過 GPT-5.5（1514），整體排第三，僅次於 Claude Fable 5 與 Claude Opus 4.5。一個能免費下載的開源模型擠進前三、打平 GPT-5.5，這是這次事件真正的份量所在。圖／Artificial Analysis

這一刀下得很重：一個你能整包下載、自己架的開源模型，在貼近真實工作的代理任務上，打平了 OpenAI 最新的旗艦 GPT-5.5。一年前還沒人敢這樣想。

三、價格：便宜是真的，但沒有你想的那麼便宜

GLM-5.2 的 API 定價是每百萬 token 輸入 1.40 美元、輸出 4.40 美元。Simon Willison 把它和對手擺在一起：

I’ve been trying it out via OpenRouter… almost all of which are charging $1.40/million for input and $4.40/million for output. For comparison, GPT-5.5 is $5/$30 and Claude Opus 4.5-4.8 is $5/$25.
中文：我透過 OpenRouter 試用……幾乎所有供應商都收每百萬輸入 1.40 美元、輸出 4.40 美元。對照之下，GPT-5.5 是 5／30 美元，Claude Opus 4.5–4.8 是 5／25 美元。
Simon Willison，原文

純看單價，輸出 4.40 對 GPT-5.5 的 30 美元，大約就是「1/6」——VentureBeat 標題沒有騙人。但這裡藏了一個魔鬼：

Intelligence vs. Cost per Task：GLM-5.2 落在性價比的「帕累托前緣」——在相同智慧水平的模型裡成本最低。圖／Artificial Analysis

便宜的單價 ≠ 便宜的總價。Artificial Analysis 同時指出，GLM-5.2 非常吃 token：每道題平均燒掉約 43,000 個輸出 token（其中約 37,000 是「推理」），是同級開源模型中效率最差的之一。換算下來，它每完成一題的成本約 0.46 美元，反而高於 DeepSeek V4 Pro（0.05）、MiniMax-M3（0.18）、甚至自家前代 GLM-5.1（0.25）。單價砍到 1/6，但話很多，省下來的錢有一部分又被它自己講回去了。

四、那些「勝過 GPT-5.5」的程式碼數字，要打折看

VentureBeat 整篇報導最吸睛的，是 GLM-5.2 在長程式設計基準上對 GPT-5.5 的連續勝場：

SWE-bench Pro: GLM-5.2 scored 62.1, decisively beating GPT-5.5 (58.6) and its own predecessor, GLM-5.1 (58.4).
中文：SWE-bench Pro：GLM-5.2 拿 62.1，明確勝過 GPT-5.5（58.6）以及自家前代 GLM-5.1（58.4）。
VentureBeat，原文

SWE-bench Pro、FrontierSWE、MCP-Atlas、PostTrainBench、SWE-Marathon……一連串數字確實都是 GLM-5.2 領先。但我必須把一件事講清楚，這也是查證後最關鍵的發現：這些數字幾乎全部是 Z.ai 自己公布的。VentureBeat 用的那幾張對比長條圖，圖說上明明白白寫著「Credit: z.ai」；只有少數項目（如 FrontierSWE 由 Proximal、SWE-Marathon 由 Abundant AI）有外部評測者參與，而業界最常用的中立基準（SWE-bench Verified、LiveCodeBench、Aider polyglot）在發表時並沒有公布。

更要補上原報導自己也承認的另一半：在這些任務上，GLM-5.2 幾乎全面落後 Claude Opus 4.8。VentureBeat 的原文是這麼寫的：

While GLM-5.2 trails Claude Opus 4.8 and GPT-5.5 slightly on raw Terminal-Bench 2.1 scores (81.0 versus 85.0 and 84.0, respectively), it significantly outscores Google’s Gemini 3.1 Pro (74.0).
中文：雖然 GLM-5.2 在 Terminal-Bench 2.1 原始分數上小幅落後 Claude Opus 4.8 與 GPT-5.5（81.0 對 85.0、84.0），但明顯勝過 Google 的 Gemini 3.1 Pro（74.0）。
VentureBeat，原文

所以公允的講法是：「依 Z.ai 自評，GLM-5.2 在多項基準勝過 GPT-5.5；但整體仍不及 Claude Opus 4.8，且這些程式碼數字尚待第三方獨立複現。」把「自評」當成「公認事實」，正是這類新聞最常見的失真。

五、Simon Willison 的實測：優秀的鵜鶘、失望的負鼠

比起冷冰冰的跑分，我更喜歡 Simon Willison 的角度。他長期用「畫一隻騎腳踏車的鵜鶘 SVG」當作模型的試金石。他對 GLM-5.2 的定位是「probably the most powerful text-only open weights LLM」——最強的純文字開源模型。他特別點出一個反直覺的觀察：

I’m impressed to see it rank so highly given the lack of image input, which I had incorrectly assumed was a key part of building a truly great frontend coding model.
中文：它沒有影像輸入能力，卻能排這麼前面，讓我很驚訝——我原本以為「看得懂圖」是打造頂尖前端程式碼模型的關鍵，看來我錯了。
Simon Willison，原文

他實測 GLM-5.2 在 Code Arena 的 WebDev 排行榜上排到第二，僅次於 Claude Fable 5——一個純文字模型，在「做網頁前端」這種你以為很吃視覺的任務上拿到亞軍。但他也很誠實地補了一刀：請它畫「騎電動滑板車的負鼠」時，結果「比 GLM-5.1 退步一大截，連動畫都沒做」。換句話說，這個模型很強，但強得不平均——這恰恰是一個好提醒：跑分很漂亮，不代表每件事都做得好。

六、原文沒明講、但你必須知道的背景：Fable 5 為什麼不在榜上

回到開頭那張 Intelligence Index 圖——最左邊那根打著斜線、標註「Not currently available」的 Claude Fable 5。它本來是全榜第一（60 分），為什麼「無法使用」？

因為就在 GLM-5.2 開源的前幾天，美國政府（據 Fortune、National Law Review 報導，發令單位為商務部）以國安為由發出一道出口管制指令，禁止任何外國國民（包括人在美國境內者、甚至 Anthropic 自家的非美籍員工）使用 Claude Fable 5 與 Mythos 5。由於無法在每次請求即時核實使用者國籍，Anthropic 索性對全球所有用戶下線這兩款模型。這件事 AlphaLab 另有專文逐字讀懂 Anthropic 的聲明。Anthropic 官方的說法是：

The net effect of this order is that we must abruptly disable Fable 5 and Mythos 5 for all our customers to ensure compliance.
中文：這道命令的實際結果是：為了合規，我們必須對所有客戶突然停用 Fable 5 與 Mythos 5。
Anthropic，官方聲明

這帶出一個 GLM-5.2 故事裡最尖銳、卻最少被提起的角度：它在 Arena 上的高名次，有一部分不是「打贏」了最強對手，而是最強對手「被美國政府拔線」了。VentureBeat 自己也是用這個對比在賣點子——當美國頂尖封閉模型面臨「可能隨時被中斷」的監管風險時，一個寫著「no regional limits、technical access without borders」的 MIT 開源模型，對企業就格外有吸引力。能力是一回事，但這次事件的另一半，其實是地緣政治。

附帶一個必須打預防針的傳聞：有第三方媒體報導 GLM-5.2「完全用華為晶片、未用任何 Nvidia 訓練」。這個說法目前查無 Z.ai 一手來源證實——Z.ai 的官方部落格與開發文件完全沒提訓練硬體。真正有官方聲明佐證「全程國產晶片、未用 Nvidia」的，是 2026 年 1 月的另一個模型 GLM-Image（多模態圖像模型），而不是 GLM-5.2。在 Z.ai 親自說明之前，這條請當成「未經證實的推測」看待，別當事實。

七、AlphaLab 的判讀：這到底是不是一個分水嶺？

判讀一：開源真的追上了「大部分」前沿，但「差距」取決於你怎麼量

一年前，最強開源模型（DeepSeek V3）在 Intelligence Index 上落後封閉旗艦約 13 分；如今 GLM-5.2 把差距縮到約 4–6 分，並在真實任務指標上打平 GPT-5.5。這是貨真價實的進步。但要誠實：用更嚴謹的長期追蹤，故事沒那麼一面倒——Epoch AI 的能力指數顯示開源仍落後封閉前沿「約 4 個月」，而且這個落後在 2026 上半年不縮反微幅擴大（封閉前沿自己也在加速）。所以正確的句子不是「開源超車了」，而是「開源把差距壓到了幾個月之內」。

判讀二：「第一」是有但書的第一

GLM-5.2 是開源第一、全榜第四；它在「一項」代理任務指標上打平 GPT-5.5，不是全面追平；在硬核推理、知識正確性（AA-Omniscience 僅 4 分、幻覺率 28.1%）與多模態上，它和最頂尖的封閉模型仍有明顯距離。它了不起，但不是「最強」。

判讀三：別被「便宜」與「開源」兩個詞催眠

「便宜」要看總價不是單價——它很吃 token，每題成本反而高於好幾個更省的對手。「開放權重」也不等於「你跑得動」：完整 BF16 權重約 1.5TB，自架要約 8 張資料中心級 GPU，個人幾乎不可能在家跑。而如果你圖方便改用 Z.ai 的雲端 API，你的程式碼與提示會經過受中國《國家情報法》約束的伺服器——美國國土安全部曾就此示警。「下載權重自架」能避開這條資料風險，「用託管 API」則不行。這兩件事要分開看。

判讀四：我同意什麼、我存疑什麼

我同意：GLM-5.2 是開源陣營一個實打實的里程碑——第一次有開源模型在獨立機構的真實任務評測上與 GPT-5.5 並肩，還是 MIT 授權、價格只要零頭。對成本敏感、需要長上下文、或想把資料留在自家機房的團隊，它是 2026 年中最值得認真評估的選項之一。

我存疑：那些最漂亮的程式碼勝場目前仍是原廠自評，需要第三方複現；「逼平 GPT-5.5」是單一指標上的打平，不是全面超越；而它登頂榜單的時間點，恰好是最強對手被政策拔線的時間點。這個故事一半是能力的真實躍進，另一半是地緣政治的偶然——兩者都別忽略。

八、那麼，你該怎麼用 GLM-5.2？

如果你是開發者或團隊，幾個務實的判斷：

適合：成本敏感的程式碼／代理工作流。它能直接掛進 Claude Code、Cline、Kilo Code 等工具，1/6 的單價對高用量場景很有感。想了解怎麼用 AI 跑實際任務，可參考這篇 Claude Code 實戰。
適合：需要超長上下文（百萬 token）、或必須把資料留在自有基礎設施——這時 MIT 開放權重 + 自架，是封閉 API 給不了的自由。
要保留：需要視覺／多模態，它做不到（純文字）；最硬的推理與知識正確性，封閉旗艦仍領先；對資料極敏感者，務必自架而非用雲端 API。
別只看一張榜單：跑分（尤其原廠自評）會騙人。真正的判準是把它接進你自己的工作流跑兩週，看它在「你的」任務上的穩定度。

一句話總結：GLM-5.2 不是「最強模型」，但它可能是「最划算的夠強模型」——而它出現的這一刻，剛好也提醒我們，AI 的競賽從來不只在實驗室裡，也在政策與國界之間。

📚 延伸閱讀

免責聲明與利益揭露：本文為 AlphaLab 對 Artificial Analysis、Simon Willison、VentureBeat 等公開報導的獨立解讀與評論，文中圖表版權屬 Artificial Analysis（評論性引用）。所有基準數據以原始來源為準，已盡力標註「獨立評測」與「原廠自評」之別；模型表現與定價可能隨時間變動，請以官方最新公告為準。本文不含任何業配或贊助，亦非投資或採購建議。