你一定有過這種經驗:打開 ChatGPT 或 Claude,問它「幫我查台北飛東京最便宜的機票」,它洋洋灑灑回你一堆建議——但它不能真的幫你訂下去。它會告訴你「你可以去 Skyscanner 搜尋」,卻沒辦法自己打開瀏覽器、比價、填資料、按下確認。
為什麼?明明它這麼聰明。答案就藏在一個這兩年在 AI 圈愈來愈常聽到的詞裡:Agent Harness(中文常譯作「代理人骨架」或「執行框架」)。這篇文章不寫一行你看不懂的程式碼,只用最白話的方式,帶你從零搞懂——到底是什麼東西,讓 AI 從「只會聊天」變成「會自己動手做事」?
這是 AlphaLab「看懂 AI Agent」系列的第一篇,專為完全沒有技術背景的讀者寫。看完你會徹底理解 harness 是什麼、補上了什麼、為什麼它是整個 AI Agent 浪潮的核心。下一篇我們再帶你親手把一個最小的 harness 拆解出來。
先搞懂一件殘酷的事實:大型語言模型只會「說」,不會「做」
我們先把名詞拆開。你平常在用的 ChatGPT、Claude,背後是一個叫做大型語言模型(LLM,Large Language Model)的東西。它的本質,其實比你想像的單純很多:
LLM 是一台「文字接龍機器」——你丟一段文字進去,它吐一段文字出來。就這樣。
這句話聽起來不起眼,但它解釋了一切限制。一個純粹的 LLM,有三個你必須知道的「天生缺陷」:
- 它沒有手腳。它可以「寫出」一段訂機票的步驟,但它沒辦法真的打開網頁、點按鈕、送出表單。它只能產生文字。
- 它沒有記憶。每一次你按下送出,對它來說都像是第一次見面(除非把先前的對話再餵一次給它)。它不會自己記得「五分鐘前我們聊到哪」。
- 它不會自己「繼續」。它回答完你這一句,就停下來了。它不會主動說「好,那我接著去做第二步」。沒有人推它,它就不動。
用一個比喻:LLM 就像一個知識淵博、反應極快,但被綁在椅子上、只能用嘴巴說話的天才。你問他怎麼修車,他講得頭頭是道;但他站不起來,也碰不到扳手。
所以關鍵問題就變成:我們要怎麼幫這個天才「鬆綁」,給他手腳、給他記憶、推著他一步步把事情做完?
補上那一層「執行引擎」,就叫 Harness
這就是 harness 登場的地方。國際 AI 社群(包括 HuggingFace)流行用一條超好記的等式來定義它:
🤖 Agent(AI 代理人)= Model(模型)+ Harness(執行層)
換句話說,我們平常聽到的「AI Agent」「AI 代理人」「AI 助理會自己做事」——它不是一個更聰明的模型,而是「同一個模型+外面包了一層會幫它執行的程式」。那層程式,就是 harness。
用 HuggingFace 官方詞彙表 的原話:harness 是「agent 內部的執行層:它呼叫模型、處理模型發出的工具呼叫、並決定何時停止。Harness 就是讓 agent 真正跑起來的東西。」
回到我們的比喻:如果 LLM 是被綁在椅子上的天才,那 harness 就是替他鬆綁、遞工具、幫他記筆記、並且不斷追問「下一步呢?」的那個助手。模型負責「想」,harness 負責「動」。兩個合起來,才是一個能做事的 agent。
Harness 到底幫忙做了哪 5 件事?
我們把那層「執行引擎」拆開,看看它具體補上了什麼。這 5 件事,正是一個最基本的 harness 的全部工作——記住它們,你就抓到精髓了。
1. 給模型一組「工具」(Tools)
既然模型沒有手腳,我們就替它準備一箱工具:「查機票價格」「寄一封 email」「搜尋網路」「讀取這個檔案」。每個工具就是一段真的能執行的程式,但我們會附上一張說明書告訴模型:這個工具叫什麼名字、能做什麼、要給它哪些資料才能用。
模型本身不會去碰這些工具,它只會「說」:「我想用『查機票價格』這個工具,出發地台北、目的地東京。」——真正動手去查的,是 harness。
2. 一個會不斷重複的「迴圈」(The Agentic Loop)
這是整個 harness 的心臟,重要到值得你慢慢讀。所謂的 agentic loop(代理迴圈),就是 harness 不停地重複下面這套動作:
- ① 問模型:「現在情況是這樣,你想做什麼?」
- ② 聽模型回答:如果模型說「我要用某個工具」,就進入第 ③ 步;如果模型說「我已經完成了,這是最終答案」,迴圈就停止。
- ③ 真的去執行那個工具:由 harness 動手,拿到結果(例如查到機票是 8,500 元)。
- ④ 把結果「回填」給模型:告訴它「你要的查價結果出來了,是 8,500 元」。
- ⑤ 回到第 ①步,帶著新資訊再問一次「那接下來呢?」
就這樣一圈一圈轉,直到模型說「做完了」為止。這個「轉圈圈直到完成」的機制,就是 AI 從「回答一句就停」進化成「自己把一整件事做完」的關鍵。Claude 官方文件把它講得很精準:這本質上就是一個 while 迴圈,只要模型還想用工具,就持續執行、回填、再問,直到它不再要求用工具為止。
3. 一本「不斷加頁」的筆記本(記憶 / 脈絡管理)
因為模型本身沒記憶,harness 必須幫它記。做法很單純:把每一輪發生的事——你問了什麼、模型決定用哪個工具、工具回傳什麼結果——全部寫進一本不斷加頁的筆記本,每次問模型時都把整本攤開給它看。
所以模型在第 5 圈時,依然「記得」第 1 圈查到的機票價格——不是因為它真的有記憶,而是因為 harness 每次都把完整的前情提要一起遞上去。這也帶出後面會講的一個難題:筆記本不能無限加頁(這牽涉到所謂的「context 管理」,我們稍後談)。
4. 一條「該停了」的線(停止條件)
如果迴圈永遠不停,AI 可能會原地打轉、把同一個工具呼叫一百次,帳單瞬間爆炸。所以 harness 一定要設停止條件:可能是模型自己宣告「完成」、可能是「最多只能轉 20 圈」、也可能是「花費超過某個上限就喊卡」。這條線同時保護你的荷包和你的耐心。
5. 一套「出錯了怎麼辦」的應變(錯誤處理)
工具會出錯——網路斷線、查無結果、資料格式不對。聰明的 harness 不會直接當機,而是把錯誤訊息原原本本回填給模型:「你剛剛那個查價失敗了,原因是日期格式錯誤。」模型讀到後,往往能自己修正、換個方式重試。這種「讓模型看見自己的錯、再給它一次機會」的設計,是 harness 好不好用的分水嶺。
用一個生活劇本,把迴圈走一遍
理論講完,我們用「幫我訂一家今晚的餐廳」這個任務,把整個 harness 從頭跑一次。假設我們給了模型兩個工具:「搜尋附近餐廳」和「打電話訂位」。
- 第 1 圈|你說:「幫我訂今晚 7 點、兩人、附近評價好的日式料理。」harness 把這句話遞給模型。模型回:「我要用『搜尋附近餐廳』,條件是日式、評價 4.5 以上。」
- ↳ harness 動手執行搜尋,拿到 3 家餐廳清單,回填給模型。
- 第 2 圈|模型看了清單後回:「第一家『鮨初』最適合,我要用『打電話訂位』,今晚 7 點、兩人。」
- ↳ harness 動手撥電話(執行工具),結果回傳:「7 點已滿,最早 7 點半。」回填給模型。
- 第 3 圈|模型判斷 7 點半也可以,回:「已訂到鮨初今晚 7 點半、兩人。任務完成。」——模型不再要求用工具,迴圈停止。
看出來了嗎?每一個「決定」都是模型做的,每一個「動作」都是 harness 做的。模型像大腦,harness 像手腳與神經系統。少了任何一邊,這頓飯都訂不成。這,就是 AI Agent 運作的全貌。
那 Harness 和「框架」、「Scaffold」差在哪?(名詞釐清)
當你開始查資料,會撞到一堆看起來很像、卻又不太一樣的詞。這裡一次幫你分清楚,看完就不會再被搞糊塗:
- Harness(執行層 / 執行引擎):就是上面講的那個「轉圈圈、執行工具、回填結果、決定何時停」的引擎。它讓 agent 真的跑起來。
- Scaffold(骨架 / 行為設定層):指你怎麼設定模型的行為——給它的角色指令(system prompt)、每個工具的說明書、怎麼解讀它的回答、要記住哪些東西。一句話:scaffold 決定模型「怎麼想、怎麼看世界」,harness 決定它「怎麼動」。
- Framework(框架,例如 LangChain、LangGraph):這是別人已經幫你把 harness 和 scaffold 寫好、打包成的「現成工具箱」。你不想從零自己刻一個迴圈,就用框架,省時間。
⚠️ 一個你一定會遇到的混亂,先打預防針:這幾個詞在業界還沒有完全統一。HuggingFace 把 harness 嚴格定義成「執行迴圈」、把提示詞和工具說明歸給 scaffold;但 Claude Code 和不少團隊則把「harness」廣義地拿來指「模型以外的所有東西」(包含提示詞、工具、基礎設施全包)。所以你看到不同文章對 harness 的範圍講得不太一樣,不是你理解錯,是這個領域實在太新。抓住核心精神就好:harness = 把模型變成會做事的 agent 的那層東西。
重要觀念:不是每件事都該「放手讓 AI 自己跑」
講到這裡你可能很興奮,覺得什麼都該交給 agent 自己轉圈圈完成。但 AI Agent 領域最重要的公司之一 Anthropic(Claude 的開發商),在他們著名的工程文章 《Building Effective Agents》 裡提醒了一個關鍵區分:
- Workflow(工作流):事情的步驟是你事先寫死的——先做 A、再做 B、然後 C。模型只在固定的格子裡填空。流程可預測、好除錯、便宜。
- Agent(代理人):事情的步驟由模型自己臨場決定——它自主主導要先做什麼、用哪個工具、何時收尾。彈性最大,但也最不可預測、最貴。
Anthropic 給的建議很務實:能用簡單 workflow 解決的,就別急著上完整 agent。只有當任務真的複雜到「無法事先預測該走哪條路」時,把方向盤交給模型才划算。這也呼應了他們的三大設計原則——保持簡單、保持透明(讓你看得到 AI 每一步在想什麼)、用心打造好用的工具介面。對剛入門的你來說,記住「先簡單再複雜」這六個字,就贏過一半的人了。
真實世界的 Harness 長什麼樣?三個你該認識的案例
概念都懂了,我們來看 harness 在真實產品裡的樣子。這三個案例,正好涵蓋了你之後最常聽到的三種情境。
案例一:Claude Code —— 把模型包成一個「會寫程式的工程師」
Claude Code 就是一個典型的 coding agent harness。它在模型外面包了一圈工具:讀檔案、改程式碼、執行終端機指令、搜尋網路。然後跑我們前面講的那個迴圈,讓 Claude 能自己讀懂你的專案 → 改程式 → 跑測試 → 看到錯誤 → 再修,一路把功能做完。Anthropic 甚至把這套引擎開放成 Claude Agent SDK,讓開發者用同一套「agent 迴圈+內建工具+脈絡管理」去打造自己的 agent。
案例二:SWE-agent 與 ACI —— 替「AI」設計操作介面,而不是替「人」
普林斯頓大學的研究團隊做了一個叫 SWE-agent 的系統,並提出一個很有啟發性的概念:ACI(Agent-Computer Interface,代理人-電腦介面)。我們人類用的是 GUI(圖形介面)、有滑鼠有按鈕;但他們發現,替 AI 設計的介面,應該長得不一樣——動作要精簡、要有「護欄」防止它犯蠢、每一步給它簡短明確的回饋。
最驚人的發現是:光是把這個「給 AI 用的介面」設計好,完全不去動模型本身,agent 的表現就能大幅提升。這證明了一件事——很多時候 AI 做不好事情,問題不在模型不夠聰明,而在它的 harness 設計得不好。這也是為什麼「打造好用的工具介面」會成為設計原則之一。
案例三:SWE-bench 的「harness」—— 一個同名、但完全不同的東西
這點一定要幫你釐清,否則你查資料會非常困惑。你會看到 SWE-bench(一個用來考核 AI 寫程式能力的著名測驗)也用了「harness」這個詞——但它指的是完全不一樣的東西。
在 SWE-bench 的語境裡,harness 指的是「評測基礎設施」:一套負責「建立乾淨的測試環境、把 AI 寫的修改套用進去、跑測試、然後打分數」的系統。它跟「驅動 agent 轉圈圈」毫無關係。同一個字,兩種完全不同的意思:
- Agent harness(本文主角):讓 AI 跑起來、會做事的執行引擎。
- Eval / benchmark harness:用來「考核並打分」AI 表現的測驗台(這個用法其實是從軟體工程的「test harness 測試框架」借來的)。
下次看到「harness」,先判斷一下講的是哪一個,就不會被搞混了。
給新手的 3 個重點,幫你站穩腳步
如果這篇你只記得三件事,請記這三件:
- ① 模型負責「想」,harness 負責「動」。「AI Agent」之所以能做事,不是模型變強了,而是外面多了一層 harness 在不停執行、回填、追問。
- ② 核心就是那個「轉圈圈」的迴圈。問模型 → 執行工具 → 回填結果 → 再問,直到完成。把這個動畫在腦中跑一遍,你就懂了八成。
- ③ 永遠要有「人類複核」和「停止條件」。AI 會犯錯、會鬼打牆。讓人能隨時看到它在做什麼、並設好「跑太久就停」的安全閥,是負責任地使用 agent 的底線。
結語:看懂 harness,你就看懂了整個 AI Agent 浪潮
回到開頭那個訂機票的問題。現在你知道了:ChatGPT 訂不了機票,不是因為它笨,而是因為它身上沒有 harness——沒有手腳、沒有迴圈、沒有人推它走下一步。而所謂的「AI Agent 元年」,本質上就是大家終於把這層 harness 做得夠好、夠穩,讓 AI 從「會聊天的天才」變成「會把事情做完的同事」。
這篇我們刻意一行程式碼都沒寫,只談觀念。下一篇〈動手搭一個最小 AI Agent Harness(實作篇)〉,我們會帶你把這個最小的 harness「拆開來看」——用最簡單的偽代碼,一步步示範那個 while 迴圈到底長什麼樣、工具怎麼定義、結果怎麼回填。讀完這篇有了地圖,下一篇就能輕鬆跟上實作。
👉 想先把 AI 真正用進工作流?延伸閱讀我們的新手系列:
- 第二篇:動手搭一個最小 AI Agent Harness(實作篇) —— 用偽代碼拆解 while 迴圈,30 行看懂 agent 核心
- Claude vs Claude Code vs Claude Cowork 完整比較 —— 搞懂哪個工具適合你
- Claude Token 省錢攻略 —— 用 agent 前先學會控制成本
- AlphaLab 線上課程 —— 矽谷工程師打造的系統設計 + Coding 實戰營,AI 時代的職涯護城河
- AI 主題總覽 —— 更多 AI Agent、Claude 與工具教學
免責聲明:本文為教育與觀念普及目的,不構成任何投資、商業或技術採用建議。「harness」「scaffold」「agent」等術語在 AI 領域仍在演變,不同來源的定義範圍可能略有差異,本文採用業界較通行的說法並已標示分歧之處。文中提及之產品功能與研究數據截至 2026 年,後續可能更新。AI 系統具有輸出錯誤資訊的可能,重要決策請由人類複核後執行。資料來源包含 HuggingFace Agent 詞彙表、Anthropic 《Building Effective Agents》、Claude 官方工具使用文件、普林斯頓 SWE-agent 論文 與 SWE-bench 官方文件。
