AI Agent Harness 是什麼？從零搞懂讓 AI 從「會聊天」變成「會做事」的關鍵（新手白話篇）

最後更新：2026年6月5日 · Terry Chen

AI Agent Harness 概念示意：Agent = Model + Harness

你一定有過這種經驗：打開 ChatGPT 或 Claude，問它「幫我查台北飛東京最便宜的機票」，它洋洋灑灑回你一堆建議——但它不能真的幫你訂下去。它會告訴你「你可以去 Skyscanner 搜尋」，卻沒辦法自己打開瀏覽器、比價、填資料、按下確認。

為什麼？明明它這麼聰明。答案就藏在一個這兩年在 AI 圈愈來愈常聽到的詞裡：Agent Harness（中文常譯作「代理人骨架」或「執行框架」）。這篇文章不寫一行你看不懂的程式碼，只用最白話的方式，帶你從零搞懂——到底是什麼東西，讓 AI 從「只會聊天」變成「會自己動手做事」？

這是 AlphaLab「看懂 AI Agent」系列的第一篇，專為完全沒有技術背景的讀者寫。看完你會徹底理解 harness 是什麼、補上了什麼、為什麼它是整個 AI Agent 浪潮的核心。下一篇我們再帶你親手把一個最小的 harness 拆解出來。

Table of Contents

先搞懂一件殘酷的事實：大型語言模型只會「說」，不會「做」

我們先把名詞拆開。你平常在用的 ChatGPT、Claude，背後是一個叫做大型語言模型（LLM，Large Language Model）的東西。它的本質，其實比你想像的單純很多：

LLM 是一台「文字接龍機器」——你丟一段文字進去，它吐一段文字出來。就這樣。

這句話聽起來不起眼，但它解釋了一切限制。一個純粹的 LLM，有三個你必須知道的「天生缺陷」：

它沒有手腳。它可以「寫出」一段訂機票的步驟，但它沒辦法真的打開網頁、點按鈕、送出表單。它只能產生文字。
它沒有記憶。每一次你按下送出，對它來說都像是第一次見面（除非把先前的對話再餵一次給它）。它不會自己記得「五分鐘前我們聊到哪」。
它不會自己「繼續」。它回答完你這一句，就停下來了。它不會主動說「好，那我接著去做第二步」。沒有人推它，它就不動。

用一個比喻：LLM 就像一個知識淵博、反應極快，但被綁在椅子上、只能用嘴巴說話的天才。你問他怎麼修車，他講得頭頭是道；但他站不起來，也碰不到扳手。

所以關鍵問題就變成：我們要怎麼幫這個天才「鬆綁」，給他手腳、給他記憶、推著他一步步把事情做完？

補上那一層「執行引擎」，就叫 Harness

這就是 harness 登場的地方。國際 AI 社群（包括 HuggingFace）流行用一條超好記的等式來定義它：

🤖 Agent（AI 代理人）＝ Model（模型）＋ Harness（執行層）

換句話說，我們平常聽到的「AI Agent」「AI 代理人」「AI 助理會自己做事」——它不是一個更聰明的模型，而是「同一個模型＋外面包了一層會幫它執行的程式」。那層程式，就是 harness。

用 HuggingFace 官方詞彙表的原話：harness 是「agent 內部的執行層：它呼叫模型、處理模型發出的工具呼叫、並決定何時停止。Harness 就是讓 agent 真正跑起來的東西。」

回到我們的比喻：如果 LLM 是被綁在椅子上的天才，那 harness 就是替他鬆綁、遞工具、幫他記筆記、並且不斷追問「下一步呢？」的那個助手。模型負責「想」，harness 負責「動」。兩個合起來，才是一個能做事的 agent。

Harness 到底幫忙做了哪 5 件事？

我們把那層「執行引擎」拆開，看看它具體補上了什麼。這 5 件事，正是一個最基本的 harness 的全部工作——記住它們，你就抓到精髓了。

1. 給模型一組「工具」（Tools）

既然模型沒有手腳，我們就替它準備一箱工具：「查機票價格」「寄一封 email」「搜尋網路」「讀取這個檔案」。每個工具就是一段真的能執行的程式，但我們會附上一張說明書告訴模型：這個工具叫什麼名字、能做什麼、要給它哪些資料才能用。

模型本身不會去碰這些工具，它只會「說」：「我想用『查機票價格』這個工具，出發地台北、目的地東京。」——真正動手去查的，是 harness。

2. 一個會不斷重複的「迴圈」（The Agentic Loop）

這是整個 harness 的心臟，重要到值得你慢慢讀。所謂的 agentic loop（代理迴圈），就是 harness 不停地重複下面這套動作：

① 問模型：「現在情況是這樣，你想做什麼？」
② 聽模型回答：如果模型說「我要用某個工具」，就進入第 ③ 步；如果模型說「我已經完成了，這是最終答案」，迴圈就停止。
③ 真的去執行那個工具：由 harness 動手，拿到結果（例如查到機票是 8,500 元）。
④ 把結果「回填」給模型：告訴它「你要的查價結果出來了，是 8,500 元」。
⑤ 回到第 ①步，帶著新資訊再問一次「那接下來呢？」

就這樣一圈一圈轉，直到模型說「做完了」為止。這個「轉圈圈直到完成」的機制，就是 AI 從「回答一句就停」進化成「自己把一整件事做完」的關鍵。Claude 官方文件把它講得很精準：這本質上就是一個 while 迴圈，只要模型還想用工具，就持續執行、回填、再問，直到它不再要求用工具為止。

3. 一本「不斷加頁」的筆記本（記憶 / 脈絡管理）

因為模型本身沒記憶，harness 必須幫它記。做法很單純：把每一輪發生的事——你問了什麼、模型決定用哪個工具、工具回傳什麼結果——全部寫進一本不斷加頁的筆記本，每次問模型時都把整本攤開給它看。

所以模型在第 5 圈時，依然「記得」第 1 圈查到的機票價格——不是因為它真的有記憶，而是因為 harness 每次都把完整的前情提要一起遞上去。這也帶出後面會講的一個難題：筆記本不能無限加頁（這牽涉到所謂的「context 管理」，我們稍後談）。

4. 一條「該停了」的線（停止條件）

如果迴圈永遠不停，AI 可能會原地打轉、把同一個工具呼叫一百次，帳單瞬間爆炸。所以 harness 一定要設停止條件：可能是模型自己宣告「完成」、可能是「最多只能轉 20 圈」、也可能是「花費超過某個上限就喊卡」。這條線同時保護你的荷包和你的耐心。

5. 一套「出錯了怎麼辦」的應變（錯誤處理）

工具會出錯——網路斷線、查無結果、資料格式不對。聰明的 harness 不會直接當機，而是把錯誤訊息原原本本回填給模型：「你剛剛那個查價失敗了，原因是日期格式錯誤。」模型讀到後，往往能自己修正、換個方式重試。這種「讓模型看見自己的錯、再給它一次機會」的設計，是 harness 好不好用的分水嶺。

用一個生活劇本，把迴圈走一遍

理論講完，我們用「幫我訂一家今晚的餐廳」這個任務，把整個 harness 從頭跑一次。假設我們給了模型兩個工具：「搜尋附近餐廳」和「打電話訂位」。

第 1 圈｜你說：「幫我訂今晚 7 點、兩人、附近評價好的日式料理。」harness 把這句話遞給模型。模型回：「我要用『搜尋附近餐廳』，條件是日式、評價 4.5 以上。」
↳ harness 動手執行搜尋，拿到 3 家餐廳清單，回填給模型。
第 2 圈｜模型看了清單後回：「第一家『鮨初』最適合，我要用『打電話訂位』，今晚 7 點、兩人。」
↳ harness 動手撥電話（執行工具），結果回傳：「7 點已滿，最早 7 點半。」回填給模型。
第 3 圈｜模型判斷 7 點半也可以，回：「已訂到鮨初今晚 7 點半、兩人。任務完成。」——模型不再要求用工具，迴圈停止。

看出來了嗎？每一個「決定」都是模型做的，每一個「動作」都是 harness 做的。模型像大腦，harness 像手腳與神經系統。少了任何一邊，這頓飯都訂不成。這，就是 AI Agent 運作的全貌。

那 Harness 和「框架」、「Scaffold」差在哪？（名詞釐清）

當你開始查資料，會撞到一堆看起來很像、卻又不太一樣的詞。這裡一次幫你分清楚，看完就不會再被搞糊塗：

Harness（執行層 / 執行引擎）：就是上面講的那個「轉圈圈、執行工具、回填結果、決定何時停」的引擎。它讓 agent 真的跑起來。
Scaffold（骨架 / 行為設定層）：指你怎麼設定模型的行為——給它的角色指令（system prompt）、每個工具的說明書、怎麼解讀它的回答、要記住哪些東西。一句話：scaffold 決定模型「怎麼想、怎麼看世界」，harness 決定它「怎麼動」。
Framework（框架，例如 LangChain、LangGraph）：這是別人已經幫你把 harness 和 scaffold 寫好、打包成的「現成工具箱」。你不想從零自己刻一個迴圈，就用框架，省時間。

⚠️ 一個你一定會遇到的混亂，先打預防針：這幾個詞在業界還沒有完全統一。HuggingFace 把 harness 嚴格定義成「執行迴圈」、把提示詞和工具說明歸給 scaffold；但 Claude Code 和不少團隊則把「harness」廣義地拿來指「模型以外的所有東西」（包含提示詞、工具、基礎設施全包）。所以你看到不同文章對 harness 的範圍講得不太一樣，不是你理解錯，是這個領域實在太新。抓住核心精神就好：harness ＝把模型變成會做事的 agent 的那層東西。

重要觀念：不是每件事都該「放手讓 AI 自己跑」

講到這裡你可能很興奮，覺得什麼都該交給 agent 自己轉圈圈完成。但 AI Agent 領域最重要的公司之一 Anthropic（Claude 的開發商），在他們著名的工程文章《Building Effective Agents》裡提醒了一個關鍵區分：

Workflow（工作流）：事情的步驟是你事先寫死的——先做 A、再做 B、然後 C。模型只在固定的格子裡填空。流程可預測、好除錯、便宜。
Agent（代理人）：事情的步驟由模型自己臨場決定——它自主主導要先做什麼、用哪個工具、何時收尾。彈性最大，但也最不可預測、最貴。

Anthropic 給的建議很務實：能用簡單 workflow 解決的，就別急著上完整 agent。只有當任務真的複雜到「無法事先預測該走哪條路」時，把方向盤交給模型才划算。這也呼應了他們的三大設計原則——保持簡單、保持透明（讓你看得到 AI 每一步在想什麼）、用心打造好用的工具介面。對剛入門的你來說，記住「先簡單再複雜」這六個字，就贏過一半的人了。

真實世界的 Harness 長什麼樣？三個你該認識的案例

概念都懂了，我們來看 harness 在真實產品裡的樣子。這三個案例，正好涵蓋了你之後最常聽到的三種情境。

案例一：Claude Code —— 把模型包成一個「會寫程式的工程師」

Claude Code 就是一個典型的 coding agent harness。它在模型外面包了一圈工具：讀檔案、改程式碼、執行終端機指令、搜尋網路。然後跑我們前面講的那個迴圈，讓 Claude 能自己讀懂你的專案 → 改程式 → 跑測試 → 看到錯誤 → 再修，一路把功能做完。Anthropic 甚至把這套引擎開放成 Claude Agent SDK，讓開發者用同一套「agent 迴圈＋內建工具＋脈絡管理」去打造自己的 agent。

案例二：SWE-agent 與 ACI —— 替「AI」設計操作介面，而不是替「人」

普林斯頓大學的研究團隊做了一個叫 SWE-agent 的系統，並提出一個很有啟發性的概念：ACI（Agent-Computer Interface，代理人-電腦介面）。我們人類用的是 GUI（圖形介面）、有滑鼠有按鈕；但他們發現，替 AI 設計的介面，應該長得不一樣——動作要精簡、要有「護欄」防止它犯蠢、每一步給它簡短明確的回饋。

最驚人的發現是：光是把這個「給 AI 用的介面」設計好，完全不去動模型本身，agent 的表現就能大幅提升。這證明了一件事——很多時候 AI 做不好事情，問題不在模型不夠聰明，而在它的 harness 設計得不好。這也是為什麼「打造好用的工具介面」會成為設計原則之一。

案例三：SWE-bench 的「harness」—— 一個同名、但完全不同的東西

這點一定要幫你釐清，否則你查資料會非常困惑。你會看到 SWE-bench（一個用來考核 AI 寫程式能力的著名測驗）也用了「harness」這個詞——但它指的是完全不一樣的東西。

在 SWE-bench 的語境裡，harness 指的是「評測基礎設施」：一套負責「建立乾淨的測試環境、把 AI 寫的修改套用進去、跑測試、然後打分數」的系統。它跟「驅動 agent 轉圈圈」毫無關係。同一個字，兩種完全不同的意思：

Agent harness（本文主角）：讓 AI 跑起來、會做事的執行引擎。
Eval / benchmark harness：用來「考核並打分」AI 表現的測驗台（這個用法其實是從軟體工程的「test harness 測試框架」借來的）。

下次看到「harness」，先判斷一下講的是哪一個，就不會被搞混了。

給新手的 3 個重點，幫你站穩腳步

如果這篇你只記得三件事，請記這三件：

① 模型負責「想」，harness 負責「動」。「AI Agent」之所以能做事，不是模型變強了，而是外面多了一層 harness 在不停執行、回填、追問。
② 核心就是那個「轉圈圈」的迴圈。問模型 → 執行工具 → 回填結果 → 再問，直到完成。把這個動畫在腦中跑一遍，你就懂了八成。
③ 永遠要有「人類複核」和「停止條件」。AI 會犯錯、會鬼打牆。讓人能隨時看到它在做什麼、並設好「跑太久就停」的安全閥，是負責任地使用 agent 的底線。

結語：看懂 harness，你就看懂了整個 AI Agent 浪潮

回到開頭那個訂機票的問題。現在你知道了：ChatGPT 訂不了機票，不是因為它笨，而是因為它身上沒有 harness——沒有手腳、沒有迴圈、沒有人推它走下一步。而所謂的「AI Agent 元年」，本質上就是大家終於把這層 harness 做得夠好、夠穩，讓 AI 從「會聊天的天才」變成「會把事情做完的同事」。

這篇我們刻意一行程式碼都沒寫，只談觀念。下一篇〈動手搭一個最小 AI Agent Harness（實作篇）〉，我們會帶你把這個最小的 harness「拆開來看」——用最簡單的偽代碼，一步步示範那個 while 迴圈到底長什麼樣、工具怎麼定義、結果怎麼回填。讀完這篇有了地圖，下一篇就能輕鬆跟上實作。

👉 想先把 AI 真正用進工作流？延伸閱讀我們的新手系列：

第二篇：動手搭一個最小 AI Agent Harness（實作篇） —— 用偽代碼拆解 while 迴圈，30 行看懂 agent 核心
Claude vs Claude Code vs Claude Cowork 完整比較 —— 搞懂哪個工具適合你
Claude Token 省錢攻略 —— 用 agent 前先學會控制成本
AlphaLab 線上課程 —— 矽谷工程師打造的系統設計 + Coding 實戰營，AI 時代的職涯護城河
AI 主題總覽 —— 更多 AI Agent、Claude 與工具教學

免責聲明：本文為教育與觀念普及目的，不構成任何投資、商業或技術採用建議。「harness」「scaffold」「agent」等術語在 AI 領域仍在演變，不同來源的定義範圍可能略有差異，本文採用業界較通行的說法並已標示分歧之處。文中提及之產品功能與研究數據截至 2026 年，後續可能更新。AI 系統具有輸出錯誤資訊的可能，重要決策請由人類複核後執行。資料來源包含 HuggingFace Agent 詞彙表、Anthropic 《Building Effective Agents》、Claude 官方工具使用文件、普林斯頓 SWE-agent 論文與 SWE-bench 官方文件。