智能與秩序
AI 編碼代理的 Harness 工程:構建高效可控的智能開發系統
摘要
本文介紹 AI 編碼代理的 Harness 工程框架。LangChain 定義代理為「模型+Harness」,Harness 是除模型外的所有組件,採三層同心圓架構:核心層(LLM)、中間層(系統提示、工具、編排)、外層(使用者構建的前饋 Guides 與反饋 Sensors)。核心目標為提高首次正確率與構建自校正閉環。執行分計算型(確定、快速、低成本的 lint、測試)與推理型(語義分析、高成本的代碼審查)。通過編碼規範、項目初始化、代碼修改工具、結構測試、審查指導等實踐,結合前饋與反饋控制,實現代理可控性。文中強調人類開發者的隱性 Harness(經驗、責任感、組織記憶、美學判斷)同樣關鍵,並引用 OpenAI、Stripe 等案例展示分層架構與反饋左移策略的應用。
重點
- Agent=Model+Harness,Harness 包含三層同心圓:模型核心層、框架中間層、使用者外層
- 前饋 Guides 在行動前引導,反饋 Sensors 在行動後觀察;兩者結合實現自校正閉環
- 計算型執行快速確定便宜,推理型執行靈活但成本高;需按時間線選擇最適執行策略
- 可維護性最成熟,架構適應性依賴 Fitness Functions,功能行為最具挑戰需規範與 AI 生成測試
- 人類開發者的隱性 Harness(經驗、責任感、組織記憶、美學)與顯性系統同等重要
章節
- Harness 架構定義與三層同心圓模型
定義代理為模型加 Harness,Harness 採三層同心圓:核心層(LLM)、中間層(系統提示、工具、編排)、外層(使用者 Guides 與 Sensors)
- 兩大核心目標與前反饋控制
提高首次正確率與構建自校正閉環,前饋 Guides 在行動前引導,反饋 Sensors 在行動後觀察並觸發自校正
- 執行類型與成本權衡
計算型執行確定、快速、低成本(lint、測試、型別檢查),推理型執行靈活但高成本(AI 代碼審查、LLM 判斷)
- 三大調節維度與新興模式
可維護性最成熟,架構適應性依賴 Fitness Functions,功能行為最具挑戰;Approved Fixtures 為新興模式
- 關鍵實踐與時間線部署
編碼規範、項目初始化、代碼修改工具、結構測試、審查指導等實踐,提交前用計算型,集成後用高成本控制
- 人類開發者的隱性 Harness
經驗、社會責任感、組織記憶、美學判斷等隱性因素與顯性系統同等重要,形成完整的代理可控架構
- 行業案例與實施啟示
OpenAI 分層架構與自定義檢查器,Stripe 啟發式預推送與反饋左移策略,展示架構實踐價值
金句
Agent = Model + Harness
Harness 的兩大目標:提高首次正確率(前饋控制減少錯誤)+ 構建自校正閉環(反饋控制自動修復)
執行類型分計算型(確定、快、低成本,如 lint、測試、型別檢查)與推理型(語義分析、高成本、非確定,如 AI 代碼審查、LLM 判斷)
時間線部署原則:提交前用快速計算型控制(lint、基礎 AI 審查),集成後用高成本控制(變異測試、架構審查)
人類開發者的隱性 Harness:經驗、社會責任感、組織記憶、美學判斷
被 8 篇文章引用 (含 21 個翻譯版本)
- AI 說修好了,但 curl 說沒有:一次關於信任、驗證與 ground truth 的安全稽核筆記
- Governance Harness:一個人和四個 AI 視窗的治理工程實踐
- 4/29 GitHub 把我斷線了:兩週重建五層韌性架構的工程紀錄
- 不切視窗也能生圖:讓 Claude Code 借 Codex CLI 呼叫 OpenAI Image-2
- 評估過 Transync AI 的定價後,我用 $0 自己做了一套即時會議翻譯(每場成本 16 元)
- 6.4%:讓日文語音辨識的精準度,從「堪用」跳到「可商用」
- AI Agent 規劃指引:從踩過的坑到可複製的框架
- AI Agents vs. Agentic AI:從任務工具到能動夥伴的演化