你有沒有算過,讓一個 AI「自己動手做事」一整天,到底要燒多少錢?2026 年,一位 Netflix 工程師 Tejas Chopra 算了:他讓 AI agent 一邊查資料、一邊讀檔案、一邊跑指令,每天的 API 帳單高達 200 美元。他發現問題出在一個很反直覺的地方——AI 每多做一步,就要把「前面所有看過的東西」重新塞進模型一次,到了第 10 步,光是一次呼叫就要付 10 萬個 token 的錢。
於是他寫了一個工具丟上 GitHub,宣稱能幫 AI「少用 60~95% 的 token、答案卻一樣」。它在 2026 年 6 月初衝上 GitHub Trending 第一名,到當月已累積五萬多顆星(星數為當下快照、會持續變動)。它的名字叫 Headroom。
這篇文章會用最白話的方式,帶你從零搞懂 Headroom 是什麼、背後怎麼運作、四種用法怎麼選,以及最重要的一件事——它對你到底有沒有用。因為這個工具最有趣的地方,是它「官方自己公佈的數據」藏了一個跟行銷標題完全不一樣的真相,而那才是你決定要不要裝它的關鍵。專為完全沒有技術背景的讀者寫,不寫一行你看不懂的程式碼。本文無業配內容。
先說結論:Headroom 是什麼?一句話帶走
🧠 一句話結論:Headroom = 在你的「AI 工具」和「背後的大模型」中間,放一個本地端的「壓縮層」,把要餵給模型的內容(工具輸出、日誌、搜尋結果、檔案、對話紀錄)先壓成精簡版再送進去——就像把一份冗長文件「壓成 zip 檔」再寄出,需要原檔時模型再從本地解壓回來。少送 token=少付錢、也跑得快一點。
但有個但書:它不是「無損壓縮機」,而是「智慧型濾網」——它是挑出最相關的留下、其餘丟掉。所以它對「一大坨結構化資料」效果驚人,對「乾淨的純文字聊天」幾乎沒用。這點下面會用官方自己的數據攤開講。
截至 2026 年 6 月,Headroom 由 Headroom Labs(作者 Tejas Chopra)開發、採 Apache 2.0 開源授權、最新版本是 v0.27.0,主要用 Python 與 Rust 寫成,可搭配 Claude、OpenAI、Gemini、Bedrock 等幾乎所有主流模型使用。它完全免費、跑在你自己的電腦上,沒有需要付費的雲端版本。
為什麼會有人需要 Headroom?先搞懂「AI 的帳單怎麼爆的」
要理解 Headroom,得先理解一個很多人沒注意到的事實:大模型沒有記憶。
你每跟 AI 講一句話,它其實是把「從頭到現在的所有對話」整包重看一遍,才回你。平常聊天感覺不出來,但當你讓 AI 變成一個會自己做事的「代理人(Agent)」——會自己查網路、讀檔案、跑指令、看回傳結果——問題就大了。把它想像成一本「不斷加頁、而且每次都要從第一頁重讀」的筆記本:
- 第 1 步:AI 查了一個資料庫,回傳 500 筆 JSON 結果(一大坨)。這 500 筆全部進了筆記本。
- 第 2 步:AI 讀了一個檔案、跑了一個指令,回傳一堆日誌。又全部進筆記本。
- 第 10 步:AI 要做下一個決定時,得把「前面 9 步所有看過的東西」整本重讀一次——這時候一次呼叫可能就要 10 萬個 token。
而你是按 token 付費的。以 Claude Opus 4.8 為例,輸入 token 每百萬約 5 美元、輸出每百萬約 25 美元(價格截至 2026 年 6 月,以官方為準)。10 萬 token 的輸入大約 0.5 美元——聽起來不多,但 agent 一個任務跑幾十步、一天跑幾百個任務,帳單就是這樣堆上去的。Chopra 估算,這些反覆重送的內容裡,高達九成是「樣板、雜訊、重複」,模型其實不需要每次都看全文。
白話結論:AI agent 之所以貴,不是因為它「想得多」,而是因為它「每一步都要把前面看過的一大坨資料重付一次錢」。Headroom 要解決的,就是這坨重複資料。想更系統地省 token,可以搭配我們另一篇 Claude 省 token 的 10 招實戰 一起看。
Headroom 怎麼運作?一張圖看懂「壓縮層」站在哪
Headroom 的位置很單純:它夾在你的 AI 工具和真正的大模型之間,而且整個壓縮過程都跑在你自己的電腦上(你的資料不會被送到別的壓縮服務)。資料流是這樣的:

當一坨內容要送進模型前,Headroom 內部有個叫 ContentRouter(內容分流器)的東西,會先判斷「這是什麼類型的內容」,再交給對應的專門壓縮器處理。你可以把它想成一個分揀中心,把不同包裹送去不同的處理線。主要的幾個零件如下:

- SmartCrusher(負責 JSON):處理一大堆結構化資料(例如那 500 筆查詢結果)。它的做法不是「縮小每一筆」,而是挑出最相關的約 15 筆留下、其餘丟掉(像
keeping 15 of 500 items),但會額外保留錯誤訊息和異常值,避免漏掉關鍵。 - CodeCompressor(負責程式碼):用 AST(程式碼的「文法結構樹」)的方式理解 Python、JS、Go、Rust、Java、C++ 等程式碼,再做精簡。(不過下面會講到,這個在多數情況其實「故意不啟動」。)
- Kompress-base(負責純文字):作者自己訓練、放在 HuggingFace 上的小型壓縮模型,專門濃縮一般文字。
- CacheAligner(負責省更多錢):穩定提示詞的開頭,讓 Anthropic/OpenAI 的原生快取(prompt cache)真的命中。這點很重要——它是和模型自家的省錢機制「合作」,不是取代它。
- IntelligentContext(負責挑重點):幫對話歷史裡每一則訊息打分數,分數低的直接丟掉,把空間留給重要的。
- CCR / 可逆壓縮(負責後悔藥):被壓掉、丟掉的原始資料會暫存在你本地,如果模型發現「我需要那筆被丟掉的細節」,可以呼叫
headroom_retrieve把原檔調回來。這就是它敢說「可逆」的底氣。 - 額外贈品:跨工具共享記憶(讓 Claude、Codex、Gemini 共用一份記憶)、輸出 token 縮減(叫模型回得更精簡)、以及
headroom learn(從失敗的對話裡學教訓,自動寫進CLAUDE.md之類的設定檔)。
白話結論:請記住這句話,它是理解 Headroom 一切的鑰匙——Headroom 是「智慧型濾網」,不是「無損壓縮機」。它幫你挑相關的留、不相關的丟,不是把全部資料原封不動地縮小。被丟掉的東西,只有在「模型主動去拿、而且本地快取還在」的時候才救得回來。這個分別,等一下會直接決定它對你有沒有用。
怎麼上手 Headroom?四種用法,新手先看這一種
Headroom 提供四種使用方式,差別在於「你要不要改程式碼」。對完全沒技術背景的人來說,第二種(代理/Proxy)最容易,因為它一行程式都不用改。

- ① 函式庫(Library):在自己的程式裡呼叫
compress(messages)。適合「自己寫 app、想把壓縮內嵌進去」的開發者。 - ② 代理(Proxy)— 推薦新手:在本機開一個
headroom proxy,把你的 AI 工具「指向」它即可,零改程式碼、任何語言都通。 - ③ 一鍵包(Agent wrap):一行指令把現成工具包起來,例如
headroom wrap claude、headroom wrap codex、headroom wrap aider。適合用 Claude Code、Codex、Aider 這類 CLI 工具的人。 - ④ MCP 伺服器:以 MCP(工具協定)形式提供
headroom_compress等工具給支援 MCP 的客戶端。適合進階整合。
新手最小可行範例:3 步驟用 Proxy 模式跑起來
下面這幾行(需要先有 Python 3.10 以上)就是一條從零到看見省錢數字的完整流程,可以直接照著貼:
# 1) 安裝(含全部功能)
pip install "headroom-ai[all]"
# 2) 在本機 8787 埠啟動壓縮代理,並確認它有在跑
headroom proxy --port 8787
curl http://localhost:8787/health
# 3) 把你的 AI 工具「指向」這個代理(以 Claude Code 為例)
ANTHROPIC_BASE_URL=http://localhost:8787 claude
# 隨時看自己省了多少 token:
curl http://localhost:8787/stats
給新手的兩個安全提醒:第一,Headroom 有一個 audit(稽核)模式——它只觀察、只記錄、不真的修改內容,建議先用這個模式跑幾天,確認對你的工作流沒有副作用,再切到真正會壓縮的 optimize(優化)模式。第二,有兩個常用的「保險絲」旋鈕:min_tokens_to_crush(預設 200,意思是太短的工具輸出乾脆不壓)和 max_items_after_crush(預設 15,決定 SmartCrusher 最多留幾筆)。覺得壓太兇、答案開始變差,就把這兩個數字調大一點。
白話結論:裝起來不難,難的是「判斷它對你的工作流有沒有效」。而這正是下一段、也是整篇最重要的一段。
🔴 最關鍵的真相:60~95% 是真的嗎?官方自己說「中位數只有 4.8%」
這是這篇文章最值得你讀的部分,也是大多數轉貼新聞不會告訴你的。
Headroom 的行銷標題是「60~95% fewer tokens, same answers(少 6 到 9 成 token、答案一樣)」。這個數字是真的,但它是「最佳情況」——專指「一大坨 JSON、日誌、結構化工具輸出」這種充滿樣板的內容。問題是,Headroom 官方自己公佈的生產環境遙測數據(橫跨 5 萬多次代理連線、250 多個安裝實例,2026 年 3 月底的取樣)顯示:

真實世界的壓縮率中位數只有 4.8%(P75 也才 6.9%、平均 11.3%)。為什麼跟標題差這麼多?因為大多數人的請求其實是「短短的對話」,沒什麼好壓的。只有「大量工具呼叫、讀很多檔案、跑很多指令」的重度 agent 工作流,才會吃到 40~80% 的甜頭。官方文件講得很坦白——這也是 Headroom 難得令人尊敬的地方,數字沒藏。你需要記住的是「什麼壓得動、什麼壓不動」:
- ✅ 壓得動(甜蜜區):一大堆 JSON 工具輸出(70~90%)、建置/執行日誌(90%+)、RAG 一次撈回的大量搜尋結果。也就是——會狂讀工具、檔案的 coding agent 和 RAG 應用。
- ⚠️ 壓得很少還會變慢:純文字(文件、文章)只壓約 43~46%,而且會增加延遲(只省錢、不省速度)。
- ❌ 幾乎不壓(直接放行):程式碼原始碼(約 0%)、grep/搜尋結果、系統提示詞(system prompt)、太短的訊息(少於 300 token)、圖片。其中程式碼壓縮是刻意被安全閘門擋住的——只要你最近幾則訊息或開頭含有「分析/檢查/修正/除錯」這類字眼,它就保護全部程式碼不壓,避免改壞你的程式。
白話結論:「60~95%」不是騙人,但它是「結構化垃圾很多」時的最佳值;如果你只是一般聊天、寫純文字、或單輪問答,真實體感可能接近 0。所以裝之前先問自己一句:我的 AI 是不是天天在讀一大坨工具輸出?是,它可能幫你省很多;不是,你大概感覺不到差別。
裝之前一定要知道的 5 個坑
坑 1:省 token ≠ 省錢
這是最容易忽略的陷阱。模型有「原生快取」機制:只要你每次送進去的開頭一模一樣,重複的部分可以用約 1 折的價錢算。但 Headroom 一壓縮,等於動到了送進去的內容,有可能讓快取「對不上、失效」,反而要用全價重算。結果就是:token 數字看起來降了,帳單卻沒降、甚至更高。建議用官方的對照組功能(HEADROOM_OUTPUT_HOLDOUT=0.1)或直接盯著你的「實際每月帳單」和「快取命中率」來驗證,別只看省了多少 token。
坑 2:「可逆」目前在串流模式下是壞的
Headroom 的「可逆(CCR)」賣點,是「丟掉的資料模型隨時能調回來」。但有兩個現實限制:第一,本地暫存的原檔預設只保留 5 分鐘(加上空間滿了會被擠掉),過期就回不去了。第二,更要注意——截至 2026 年 6 月,官方還有一個未修復的已知問題(#1450):在「串流(streaming)」模式的客戶端下,模型想調回原檔的請求會失效,變成「找不到工具」的錯誤。而 Claude Code 正是用串流跑的。所以「可逆」這個保證,在某些你最可能用的場景下目前並不成立,發佈當下請自行到 GitHub issues 查最新狀態。
坑 3:它是「中間人」,會看到你所有的內容
用代理模式時,Headroom 等於站在你和模型中間,你送出的每一個請求、系統提示詞、工具輸出它都會經手(這也是它能壓縮的前提)。好消息是壓縮跑在本地、資料不外送第三方;但要注意:它的壓縮模型需要從 HuggingFace 下載;官方文件未說明會自動遮蔽訊息內容裡的密鑰或個資(這是「沒寫」而非「確定不做」,請以官方為準);另外它有匿名遙測,從 v0.27.0 起改為「預設關閉、要自己開」,但舊版本可能預設是開的。處理敏感資料的人,務必先確認遙測設定、並把含密鑰的內容排除在壓縮之外。
坑 4:它還很年輕(pre-1.0),而且你把它放進了關鍵路徑
Headroom 目前是 0.x 版(v0.27.0),大約每 1 到 6 天就發一版——這代表開發很活躍,但也代表還在快速變動、介面可能隨時改。官方文件並沒有把它標為「production-ready(正式可上線)」,也沒標「測試版」,所以成熟度只能自己評估。更現實的是,你等於把一個「會默默改寫你內容、又還在高速迭代」的依賴,插在 AI 和模型之間最關鍵的位置。官方甚至有一個已知 bug(#1478)會讓壓縮「靜默歸零」(沒效果但也不報錯);另有一筆與 Rust 套件相關的資安提醒(#1453)在追蹤中。結論:先在不重要的工作流上試,別一上來就用在生產環境。
坑 5:對中文(多語)可能更不友善,還會佔空間變慢
負責壓純文字的 Kompress-base 模型偏向英文,多語(包含繁體中文)的壓縮效果較弱——對 AlphaLab 的中文讀者來說,純文字那塊的體感可能比官方數字更低。另外,裝下去不是免費午餐:程式碼解析套件約 50MB、兩個 HuggingFace 模型各約 128MB、本地快取可能吃掉數百 MB;每次請求也有延遲開銷(中位數約 52 毫秒,但極端情況 P99 可達 4 秒多)。官方一句話總結得很好:文字/ML 壓縮這條路「是用來省錢的,不是用來省速度的」。
所以,我到底該不該用 Headroom?決策懶人包
把上面的東西濃縮成一句可執行的判斷:
- 很適合裝:你天天跑 coding agent(Claude Code、Codex、Cursor、Aider)或 RAG 應用,AI 一直在讀大量工具輸出/檔案/搜尋結果,帳單明顯偏高。→ 用 Proxy 或 Agent wrap,先開
audit模式觀察,再切optimize。 - 先別急:你主要是純文字聊天、單輪問答、或內容不大。→ 真實壓縮率可能接近官方中位數的 4.8%,不裝也沒差多少。
- 可能不需要:你只用單一家模型、而且已經善用它原生的 prompt caching/compaction(內建壓縮)。→ 官方自己也說,這種情況「可以跳過 Headroom」。原生快取在穩定前綴上甚至能省更多。
- 重點心法:Headroom 跟模型「原生省錢機制」大多是互補、不是取代。它擅長的是「壓那些原生機制壓不到的新工具輸出」,以及「跨工具共享記憶」。
如果你連「為什麼 agent 會一直重讀內容」都還想更扎實地搞懂,建議先讀我們的 AI Agent Harness 是什麼 和 動手做一個 Agent Harness,你會更清楚 Headroom 到底在那個迴圈的哪一格動手腳。
常見問題 FAQ
Q1:Headroom 要錢嗎?
不用,完全免費。它是 Apache 2.0 開源、跑在你自己電腦上的工具,沒有付費雲端版(企業合作目前只有一個聯絡信箱)。你省下的是付給「模型廠商」的 API token 錢。
Q2:它真的能省 60~95% 嗎?
看內容。對「一大坨 JSON/日誌等結構化工具輸出」可以;但官方自家遙測顯示,真實世界壓縮率中位數只有 4.8%,因為多數請求是短對話。重度工具型 agent 才吃得到大幅節省。
Q3:它是「無損」壓縮嗎?資料會不會被弄丟?
不是無損,是「挑重點」。它留下最相關的、丟掉其餘的。被丟的原檔會暫存本地(預設 5 分鐘),模型需要時可調回——但這個「調回」功能在串流模式下目前有已知問題(#1450),所以不能把「絕對不丟資料」當保證。
Q4:完全不懂寫程式,能用嗎?
可以,但要會用終端機貼指令。最簡單是 Proxy 模式——三行指令啟動、再把工具指向它即可,不用改任何程式碼。若你連終端機都沒碰過,建議先從我們的 AI 實戰課程 把基礎打起來再上手。
Q5:用了會不會讓 AI 變笨、答錯?
有可能,所以要驗證。官方 benchmark 宣稱準確度幾乎不掉(這是廠商自測數字),但壓太兇本來就有風險。實務做法:先開 audit 模式觀察、把 max_items_after_crush 設保守一點、並對重要任務做 A/B 比對。
Q6:它和 Claude 內建的 prompt caching 衝突嗎?
不一定,多數時候互補。Headroom 還特地做了 CacheAligner 去「配合」原生快取命中。但如前所述,壓縮也可能打掉快取,所以務必實測帳單。如果你只用單一家模型、又已善用原生快取,可能不裝也夠用。
Q7:它是 Netflix 出的嗎?
不是。作者 Tejas Chopra 是 Netflix 的工程師沒錯,但這是他個人的開源專案,Netflix 並未贊助或背書。把它理解成「一位 Netflix 工程師為了自己省錢做的工具」比較精準。
Q8:支援哪些模型和工具?
主流幾乎都支援。模型方面有 Anthropic(Claude)、OpenAI、Bedrock,以及任何「OpenAI 相容」的客戶端(透過 Proxy)。工具方面可一鍵包覆 Claude Code、Codex、Aider、Copilot CLI、OpenCode 等;Cursor 需手動設定。想搞懂 Claude 這條線的工具差異,可參考 Claude Code vs Codex 比較。
給新手的 4 個重點
- 記住那把鑰匙:Headroom 是智慧型濾網(挑重點留、其餘丟),不是無損壓縮機。理解這點,你就懂它為什麼對某些內容神、對某些內容沒用。
- 先驗證再相信:別被「60~95%」沖昏頭,官方自家中位數是 4.8%。裝完先看你的實際帳單有沒有降,因為「省 token ≠ 省錢」。
- 新手走 Proxy + audit:零改程式碼、先觀察不動內容,確認沒副作用再開 optimize。
- 它還很年輕:pre-1.0、幾天一版、有未修的已知問題。先用在不痛的工作流,別賭上生產環境。
📚 延伸閱讀
- Claude 怎麼省 token?新手必學 10 招——不裝任何工具,也能先把帳單砍一半的內建做法。
- AI Agent Harness 是什麼——搞懂「agent 為什麼會一直重讀內容」,才會懂 Headroom 在哪動手腳。
- 動手做一個 Agent Harness——用約 30 行白話偽代碼,看清那個「燒 token 的迴圈」長什麼樣。
- Claude vs Claude Code vs Cowork——搞清楚你手上的是哪個工具,才知道要不要包 Headroom。
- Claude Opus 4.8 完整解析——你的 token 到底花在哪、一個 token 多少錢,這裡算給你看。
- 更多 AI 白話教學,都在 AlphaLab AI 專區。
結語
回到那把鑰匙:Headroom = 在 AI 和模型之間放一個本地壓縮層,把內容壓成 zip 再送進去;但它是智慧型濾網,不是無損壓縮機。它最迷人的地方,其實不是那個 60~95% 的標題,而是它願意在官方文件裡誠實放上「中位數只有 4.8%」——在這個動不動就吹的 AI 工具圈,這份坦白本身就值得學。
對天天跑重度 agent、被帳單嚇到的人,Headroom 可能是今年最值得一試的開源工具之一;對只是偶爾跟 AI 聊兩句的人,它大概沒什麼感覺。重點永遠是——先搞懂工具的原理,再用你自己的帳單去驗證它,而不是被一個漂亮的數字牽著走。這也是我們寫每一篇 AI 教學的初衷:讓你看得懂、用得上、不被唬。
免責聲明
本文為教育與資訊分享用途,撰於 2026 年 6 月,所有版本、價格、星數、功能與已知問題(如 #1450、#1453、#1478)均為當下快照,且 Headroom 為 pre-1.0 專案、約每數天更新一版,實際情況請以官方為準並於使用前重新查證。文中所引「60~95%」「中位數 4.8%」等壓縮與準確度數據,均為 Headroom 官方/作者自行公佈之數字,未經第三方獨立稽核。模型價格截至 2026 年 6 月,以各模型官方公告為準。主要參考來源:Headroom 官方 GitHub(github.com/headroomlabs-ai/headroom)與官方說明文件/benchmarks 頁。AI 具有輸出錯誤資訊的可能,重要決策請由人類複核。本文無業配內容。
