【2026 最新】Headroom 是什麼？幫 AI Agent 省 60-95% token 的壓縮層，零基礎白話搞懂（含官方實測真相）

最後更新：2026年6月27日 · Terry Chen

你有沒有算過，讓一個 AI「自己動手做事」一整天，到底要燒多少錢？2026 年，一位 Netflix 工程師 Tejas Chopra 算了：他讓 AI agent 一邊查資料、一邊讀檔案、一邊跑指令，每天的 API 帳單高達 200 美元。他發現問題出在一個很反直覺的地方——AI 每多做一步，就要把「前面所有看過的東西」重新塞進模型一次，到了第 10 步，光是一次呼叫就要付 10 萬個 token 的錢。

於是他寫了一個工具丟上 GitHub，宣稱能幫 AI「少用 60～95% 的 token、答案卻一樣」。它在 2026 年 6 月初衝上 GitHub Trending 第一名，到當月已累積五萬多顆星（星數為當下快照、會持續變動）。它的名字叫 Headroom。

這篇文章會用最白話的方式，帶你從零搞懂 Headroom 是什麼、背後怎麼運作、四種用法怎麼選，以及最重要的一件事——它對你到底有沒有用。因為這個工具最有趣的地方，是它「官方自己公佈的數據」藏了一個跟行銷標題完全不一樣的真相，而那才是你決定要不要裝它的關鍵。專為完全沒有技術背景的讀者寫，不寫一行你看不懂的程式碼。本文無業配內容。

Table of Contents

先說結論：Headroom 是什麼？一句話帶走

🧠 一句話結論：Headroom ＝在你的「AI 工具」和「背後的大模型」中間，放一個本地端的「壓縮層」，把要餵給模型的內容（工具輸出、日誌、搜尋結果、檔案、對話紀錄）先壓成精簡版再送進去——就像把一份冗長文件「壓成 zip 檔」再寄出，需要原檔時模型再從本地解壓回來。少送 token＝少付錢、也跑得快一點。

但有個但書：它不是「無損壓縮機」，而是「智慧型濾網」——它是挑出最相關的留下、其餘丟掉。所以它對「一大坨結構化資料」效果驚人，對「乾淨的純文字聊天」幾乎沒用。這點下面會用官方自己的數據攤開講。

截至 2026 年 6 月，Headroom 由 Headroom Labs（作者 Tejas Chopra）開發、採 Apache 2.0 開源授權、最新版本是 v0.27.0，主要用 Python 與 Rust 寫成，可搭配 Claude、OpenAI、Gemini、Bedrock 等幾乎所有主流模型使用。它完全免費、跑在你自己的電腦上，沒有需要付費的雲端版本。

為什麼會有人需要 Headroom？先搞懂「AI 的帳單怎麼爆的」

要理解 Headroom，得先理解一個很多人沒注意到的事實：大模型沒有記憶。

你每跟 AI 講一句話，它其實是把「從頭到現在的所有對話」整包重看一遍，才回你。平常聊天感覺不出來，但當你讓 AI 變成一個會自己做事的「代理人（Agent）」——會自己查網路、讀檔案、跑指令、看回傳結果——問題就大了。把它想像成一本「不斷加頁、而且每次都要從第一頁重讀」的筆記本：

第 1 步：AI 查了一個資料庫，回傳 500 筆 JSON 結果（一大坨）。這 500 筆全部進了筆記本。
第 2 步：AI 讀了一個檔案、跑了一個指令，回傳一堆日誌。又全部進筆記本。
第 10 步：AI 要做下一個決定時，得把「前面 9 步所有看過的東西」整本重讀一次——這時候一次呼叫可能就要 10 萬個 token。

而你是按 token 付費的。以 Claude Opus 4.8 為例，輸入 token 每百萬約 5 美元、輸出每百萬約 25 美元（價格截至 2026 年 6 月，以官方為準）。10 萬 token 的輸入大約 0.5 美元——聽起來不多，但 agent 一個任務跑幾十步、一天跑幾百個任務，帳單就是這樣堆上去的。Chopra 估算，這些反覆重送的內容裡，高達九成是「樣板、雜訊、重複」，模型其實不需要每次都看全文。

白話結論：AI agent 之所以貴，不是因為它「想得多」，而是因為它「每一步都要把前面看過的一大坨資料重付一次錢」。Headroom 要解決的，就是這坨重複資料。想更系統地省 token，可以搭配我們另一篇 Claude 省 token 的 10 招實戰一起看。

Headroom 怎麼運作？一張圖看懂「壓縮層」站在哪

Headroom 的位置很單純：它夾在你的 AI 工具和真正的大模型之間，而且整個壓縮過程都跑在你自己的電腦上（你的資料不會被送到別的壓縮服務）。資料流是這樣的：

Headroom AI 內容壓縮層運作示意圖：AI Agent 的工具輸出先經過本地 Headroom 壓縮再送進大模型 — Headroom 站在你的 AI Agent 與大模型之間，把要送進模型的內容先壓縮。圖中範例為官方展示的「10,144 → 1,260 token」壓縮（同一個關鍵錯誤訊息仍被找到）。

當一坨內容要送進模型前，Headroom 內部有個叫 ContentRouter（內容分流器）的東西，會先判斷「這是什麼類型的內容」，再交給對應的專門壓縮器處理。你可以把它想成一個分揀中心，把不同包裹送去不同的處理線。主要的幾個零件如下：

Headroom 壓縮引擎的主要零件：SmartCrusher、CodeCompressor、Kompress-base、CacheAligner、IntelligentContext、CCR — Headroom 引擎的主要零件。官方副標宣稱「6 種演算法」，實際具名元件略多於此，把「6」當行銷數字看即可。

SmartCrusher（負責 JSON）：處理一大堆結構化資料（例如那 500 筆查詢結果）。它的做法不是「縮小每一筆」，而是挑出最相關的約 15 筆留下、其餘丟掉（像 keeping 15 of 500 items），但會額外保留錯誤訊息和異常值，避免漏掉關鍵。
CodeCompressor（負責程式碼）：用 AST（程式碼的「文法結構樹」）的方式理解 Python、JS、Go、Rust、Java、C++ 等程式碼，再做精簡。（不過下面會講到，這個在多數情況其實「故意不啟動」。）
Kompress-base（負責純文字）：作者自己訓練、放在 HuggingFace 上的小型壓縮模型，專門濃縮一般文字。
CacheAligner（負責省更多錢）：穩定提示詞的開頭，讓 Anthropic／OpenAI 的原生快取（prompt cache）真的命中。這點很重要——它是和模型自家的省錢機制「合作」，不是取代它。
IntelligentContext（負責挑重點）：幫對話歷史裡每一則訊息打分數，分數低的直接丟掉，把空間留給重要的。
CCR / 可逆壓縮（負責後悔藥）：被壓掉、丟掉的原始資料會暫存在你本地，如果模型發現「我需要那筆被丟掉的細節」，可以呼叫 headroom_retrieve 把原檔調回來。這就是它敢說「可逆」的底氣。
額外贈品：跨工具共享記憶（讓 Claude、Codex、Gemini 共用一份記憶）、輸出 token 縮減（叫模型回得更精簡）、以及 headroom learn（從失敗的對話裡學教訓，自動寫進 CLAUDE.md 之類的設定檔）。

白話結論：請記住這句話，它是理解 Headroom 一切的鑰匙——Headroom 是「智慧型濾網」，不是「無損壓縮機」。它幫你挑相關的留、不相關的丟，不是把全部資料原封不動地縮小。被丟掉的東西，只有在「模型主動去拿、而且本地快取還在」的時候才救得回來。這個分別，等一下會直接決定它對你有沒有用。

怎麼上手 Headroom？四種用法，新手先看這一種

Headroom 提供四種使用方式，差別在於「你要不要改程式碼」。對完全沒技術背景的人來說，第二種（代理／Proxy）最容易，因為它一行程式都不用改。

Headroom 的四種使用方式：函式庫 Library、代理 Proxy、一鍵包 Agent wrap、MCP 伺服器 — Headroom 的四種用法。新手從「Proxy（零改 code）」或「Agent wrap（一鍵）」開始最簡單。

① 函式庫（Library）：在自己的程式裡呼叫 compress(messages)。適合「自己寫 app、想把壓縮內嵌進去」的開發者。
② 代理（Proxy）— 推薦新手：在本機開一個 headroom proxy，把你的 AI 工具「指向」它即可，零改程式碼、任何語言都通。
③ 一鍵包（Agent wrap）：一行指令把現成工具包起來，例如 headroom wrap claude、headroom wrap codex、headroom wrap aider。適合用 Claude Code、Codex、Aider 這類 CLI 工具的人。
④ MCP 伺服器：以 MCP（工具協定）形式提供 headroom_compress 等工具給支援 MCP 的客戶端。適合進階整合。

新手最小可行範例：3 步驟用 Proxy 模式跑起來

下面這幾行（需要先有 Python 3.10 以上）就是一條從零到看見省錢數字的完整流程，可以直接照著貼：

# 1) 安裝（含全部功能）
pip install "headroom-ai[all]"

# 2) 在本機 8787 埠啟動壓縮代理，並確認它有在跑
headroom proxy --port 8787
curl http://localhost:8787/health

# 3) 把你的 AI 工具「指向」這個代理（以 Claude Code 為例）
ANTHROPIC_BASE_URL=http://localhost:8787 claude

# 隨時看自己省了多少 token：
curl http://localhost:8787/stats

給新手的兩個安全提醒：第一，Headroom 有一個 audit（稽核）模式——它只觀察、只記錄、不真的修改內容，建議先用這個模式跑幾天，確認對你的工作流沒有副作用，再切到真正會壓縮的 optimize（優化）模式。第二，有兩個常用的「保險絲」旋鈕：min_tokens_to_crush（預設 200，意思是太短的工具輸出乾脆不壓）和 max_items_after_crush（預設 15，決定 SmartCrusher 最多留幾筆）。覺得壓太兇、答案開始變差，就把這兩個數字調大一點。

白話結論：裝起來不難，難的是「判斷它對你的工作流有沒有效」。而這正是下一段、也是整篇最重要的一段。

🔴 最關鍵的真相：60～95% 是真的嗎？官方自己說「中位數只有 4.8%」

這是這篇文章最值得你讀的部分，也是大多數轉貼新聞不會告訴你的。

Headroom 的行銷標題是「60～95% fewer tokens, same answers（少 6 到 9 成 token、答案一樣）」。這個數字是真的，但它是「最佳情況」——專指「一大坨 JSON、日誌、結構化工具輸出」這種充滿樣板的內容。問題是，Headroom 官方自己公佈的生產環境遙測數據（橫跨 5 萬多次代理連線、250 多個安裝實例，2026 年 3 月底的取樣）顯示：

Headroom 行銷宣稱 60-95% 壓縮，但官方生產遙測中位數只有 4.8%；附壓得動與壓不動的內容對照 — 行銷標題（60～95%，最佳情況）vs 官方自家遙測（中位數 4.8%）。差別不是誰在說謊，而是「你的內容是哪一種」。數據截至 2026 年 6 月官方 benchmarks 頁。

真實世界的壓縮率中位數只有 4.8%（P75 也才 6.9%、平均 11.3%）。為什麼跟標題差這麼多？因為大多數人的請求其實是「短短的對話」，沒什麼好壓的。只有「大量工具呼叫、讀很多檔案、跑很多指令」的重度 agent 工作流，才會吃到 40～80% 的甜頭。官方文件講得很坦白——這也是 Headroom 難得令人尊敬的地方，數字沒藏。你需要記住的是「什麼壓得動、什麼壓不動」：

✅ 壓得動（甜蜜區）：一大堆 JSON 工具輸出（70～90%）、建置／執行日誌（90%+）、RAG 一次撈回的大量搜尋結果。也就是——會狂讀工具、檔案的 coding agent 和 RAG 應用。
⚠️ 壓得很少還會變慢：純文字（文件、文章）只壓約 43～46%，而且會增加延遲（只省錢、不省速度）。
❌ 幾乎不壓（直接放行）：程式碼原始碼（約 0%）、grep／搜尋結果、系統提示詞（system prompt）、太短的訊息（少於 300 token）、圖片。其中程式碼壓縮是刻意被安全閘門擋住的——只要你最近幾則訊息或開頭含有「分析／檢查／修正／除錯」這類字眼，它就保護全部程式碼不壓，避免改壞你的程式。

白話結論：「60～95%」不是騙人，但它是「結構化垃圾很多」時的最佳值；如果你只是一般聊天、寫純文字、或單輪問答，真實體感可能接近 0。所以裝之前先問自己一句：我的 AI 是不是天天在讀一大坨工具輸出？是，它可能幫你省很多；不是，你大概感覺不到差別。

裝之前一定要知道的 5 個坑

坑 1：省 token ≠ 省錢

這是最容易忽略的陷阱。模型有「原生快取」機制：只要你每次送進去的開頭一模一樣，重複的部分可以用約 1 折的價錢算。但 Headroom 一壓縮，等於動到了送進去的內容，有可能讓快取「對不上、失效」，反而要用全價重算。結果就是：token 數字看起來降了，帳單卻沒降、甚至更高。建議用官方的對照組功能（HEADROOM_OUTPUT_HOLDOUT=0.1）或直接盯著你的「實際每月帳單」和「快取命中率」來驗證，別只看省了多少 token。

坑 2：「可逆」目前在串流模式下是壞的

Headroom 的「可逆（CCR）」賣點，是「丟掉的資料模型隨時能調回來」。但有兩個現實限制：第一，本地暫存的原檔預設只保留 5 分鐘（加上空間滿了會被擠掉），過期就回不去了。第二，更要注意——截至 2026 年 6 月，官方還有一個未修復的已知問題（#1450）：在「串流（streaming）」模式的客戶端下，模型想調回原檔的請求會失效，變成「找不到工具」的錯誤。而 Claude Code 正是用串流跑的。所以「可逆」這個保證，在某些你最可能用的場景下目前並不成立，發佈當下請自行到 GitHub issues 查最新狀態。

坑 3：它是「中間人」，會看到你所有的內容

用代理模式時，Headroom 等於站在你和模型中間，你送出的每一個請求、系統提示詞、工具輸出它都會經手（這也是它能壓縮的前提）。好消息是壓縮跑在本地、資料不外送第三方；但要注意：它的壓縮模型需要從 HuggingFace 下載；官方文件未說明會自動遮蔽訊息內容裡的密鑰或個資（這是「沒寫」而非「確定不做」，請以官方為準）；另外它有匿名遙測，從 v0.27.0 起改為「預設關閉、要自己開」，但舊版本可能預設是開的。處理敏感資料的人，務必先確認遙測設定、並把含密鑰的內容排除在壓縮之外。

坑 4：它還很年輕（pre-1.0），而且你把它放進了關鍵路徑

Headroom 目前是 0.x 版（v0.27.0），大約每 1 到 6 天就發一版——這代表開發很活躍，但也代表還在快速變動、介面可能隨時改。官方文件並沒有把它標為「production-ready（正式可上線）」，也沒標「測試版」，所以成熟度只能自己評估。更現實的是，你等於把一個「會默默改寫你內容、又還在高速迭代」的依賴，插在 AI 和模型之間最關鍵的位置。官方甚至有一個已知 bug（#1478）會讓壓縮「靜默歸零」（沒效果但也不報錯）；另有一筆與 Rust 套件相關的資安提醒（#1453）在追蹤中。結論：先在不重要的工作流上試，別一上來就用在生產環境。

坑 5：對中文（多語）可能更不友善，還會佔空間變慢

負責壓純文字的 Kompress-base 模型偏向英文，多語（包含繁體中文）的壓縮效果較弱——對 AlphaLab 的中文讀者來說，純文字那塊的體感可能比官方數字更低。另外，裝下去不是免費午餐：程式碼解析套件約 50MB、兩個 HuggingFace 模型各約 128MB、本地快取可能吃掉數百 MB；每次請求也有延遲開銷（中位數約 52 毫秒，但極端情況 P99 可達 4 秒多）。官方一句話總結得很好：文字／ML 壓縮這條路「是用來省錢的，不是用來省速度的」。

所以，我到底該不該用 Headroom？決策懶人包

把上面的東西濃縮成一句可執行的判斷：

很適合裝：你天天跑 coding agent（Claude Code、Codex、Cursor、Aider）或 RAG 應用，AI 一直在讀大量工具輸出／檔案／搜尋結果，帳單明顯偏高。→ 用 Proxy 或 Agent wrap，先開 audit 模式觀察，再切 optimize。
先別急：你主要是純文字聊天、單輪問答、或內容不大。→ 真實壓縮率可能接近官方中位數的 4.8%，不裝也沒差多少。
可能不需要：你只用單一家模型、而且已經善用它原生的 prompt caching／compaction（內建壓縮）。→ 官方自己也說，這種情況「可以跳過 Headroom」。原生快取在穩定前綴上甚至能省更多。
重點心法：Headroom 跟模型「原生省錢機制」大多是互補、不是取代。它擅長的是「壓那些原生機制壓不到的新工具輸出」，以及「跨工具共享記憶」。

如果你連「為什麼 agent 會一直重讀內容」都還想更扎實地搞懂，建議先讀我們的 AI Agent Harness 是什麼和動手做一個 Agent Harness，你會更清楚 Headroom 到底在那個迴圈的哪一格動手腳。

常見問題 FAQ

Q1：Headroom 要錢嗎？

不用，完全免費。它是 Apache 2.0 開源、跑在你自己電腦上的工具，沒有付費雲端版（企業合作目前只有一個聯絡信箱）。你省下的是付給「模型廠商」的 API token 錢。

Q2：它真的能省 60～95% 嗎？

看內容。對「一大坨 JSON／日誌等結構化工具輸出」可以；但官方自家遙測顯示，真實世界壓縮率中位數只有 4.8%，因為多數請求是短對話。重度工具型 agent 才吃得到大幅節省。

Q3：它是「無損」壓縮嗎？資料會不會被弄丟？

不是無損，是「挑重點」。它留下最相關的、丟掉其餘的。被丟的原檔會暫存本地（預設 5 分鐘），模型需要時可調回——但這個「調回」功能在串流模式下目前有已知問題（#1450），所以不能把「絕對不丟資料」當保證。

Q4：完全不懂寫程式，能用嗎？

可以，但要會用終端機貼指令。最簡單是 Proxy 模式——三行指令啟動、再把工具指向它即可，不用改任何程式碼。若你連終端機都沒碰過，建議先從我們的 AI 實戰課程把基礎打起來再上手。

Q5：用了會不會讓 AI 變笨、答錯？

有可能，所以要驗證。官方 benchmark 宣稱準確度幾乎不掉（這是廠商自測數字），但壓太兇本來就有風險。實務做法：先開 audit 模式觀察、把 max_items_after_crush 設保守一點、並對重要任務做 A/B 比對。

Q6：它和 Claude 內建的 prompt caching 衝突嗎？

不一定，多數時候互補。Headroom 還特地做了 CacheAligner 去「配合」原生快取命中。但如前所述，壓縮也可能打掉快取，所以務必實測帳單。如果你只用單一家模型、又已善用原生快取，可能不裝也夠用。

Q7：它是 Netflix 出的嗎？

不是。作者 Tejas Chopra 是 Netflix 的工程師沒錯，但這是他個人的開源專案，Netflix 並未贊助或背書。把它理解成「一位 Netflix 工程師為了自己省錢做的工具」比較精準。

Q8：支援哪些模型和工具？

主流幾乎都支援。模型方面有 Anthropic（Claude）、OpenAI、Bedrock，以及任何「OpenAI 相容」的客戶端（透過 Proxy）。工具方面可一鍵包覆 Claude Code、Codex、Aider、Copilot CLI、OpenCode 等；Cursor 需手動設定。想搞懂 Claude 這條線的工具差異，可參考 Claude Code vs Codex 比較。

給新手的 4 個重點

記住那把鑰匙：Headroom 是智慧型濾網（挑重點留、其餘丟），不是無損壓縮機。理解這點，你就懂它為什麼對某些內容神、對某些內容沒用。
先驗證再相信：別被「60～95%」沖昏頭，官方自家中位數是 4.8%。裝完先看你的實際帳單有沒有降，因為「省 token ≠ 省錢」。
新手走 Proxy + audit：零改程式碼、先觀察不動內容，確認沒副作用再開 optimize。
它還很年輕：pre-1.0、幾天一版、有未修的已知問題。先用在不痛的工作流，別賭上生產環境。

📚 延伸閱讀

Claude 怎麼省 token？新手必學 10 招——不裝任何工具，也能先把帳單砍一半的內建做法。
AI Agent Harness 是什麼——搞懂「agent 為什麼會一直重讀內容」，才會懂 Headroom 在哪動手腳。
動手做一個 Agent Harness——用約 30 行白話偽代碼，看清那個「燒 token 的迴圈」長什麼樣。
Claude vs Claude Code vs Cowork——搞清楚你手上的是哪個工具，才知道要不要包 Headroom。
Claude Opus 4.8 完整解析——你的 token 到底花在哪、一個 token 多少錢，這裡算給你看。
更多 AI 白話教學，都在 AlphaLab AI 專區。

結語

回到那把鑰匙：Headroom ＝在 AI 和模型之間放一個本地壓縮層，把內容壓成 zip 再送進去；但它是智慧型濾網，不是無損壓縮機。它最迷人的地方，其實不是那個 60～95% 的標題，而是它願意在官方文件裡誠實放上「中位數只有 4.8%」——在這個動不動就吹的 AI 工具圈，這份坦白本身就值得學。

對天天跑重度 agent、被帳單嚇到的人，Headroom 可能是今年最值得一試的開源工具之一；對只是偶爾跟 AI 聊兩句的人，它大概沒什麼感覺。重點永遠是——先搞懂工具的原理，再用你自己的帳單去驗證它，而不是被一個漂亮的數字牽著走。這也是我們寫每一篇 AI 教學的初衷：讓你看得懂、用得上、不被唬。

免責聲明

本文為教育與資訊分享用途，撰於 2026 年 6 月，所有版本、價格、星數、功能與已知問題（如 #1450、#1453、#1478）均為當下快照，且 Headroom 為 pre-1.0 專案、約每數天更新一版，實際情況請以官方為準並於使用前重新查證。文中所引「60～95%」「中位數 4.8%」等壓縮與準確度數據，均為 Headroom 官方／作者自行公佈之數字，未經第三方獨立稽核。模型價格截至 2026 年 6 月，以各模型官方公告為準。主要參考來源：Headroom 官方 GitHub（github.com/headroomlabs-ai/headroom）與官方說明文件／benchmarks 頁。AI 具有輸出錯誤資訊的可能，重要決策請由人類複核。本文無業配內容。