AI 評估這件事過去一直有一個很深的慣性。大家習慣先問模型跑分高不高或能否在某些題庫中取得更漂亮的成績。這套方法在純模型時代有其作用,因為那時候我們主要想知道一個模型本身夠不夠強,是否有足夠的語言理解、知識調用和推理能力。但到 AI 代理時代,這種評估框架開始失效。原因很簡單:代理是一個要在現實流程中做事的系統。NVIDIA 最近就明確指出,模型評估與代理評估回答的是兩個根本不同的問題;前者測試基礎模型在靜態任務上的能力,後者測試整個系統在動態環境中,如何規劃、調用工具、處理不確定性,並完成真實工作流程。
這個差異看似只是技術細節,實際上卻代表 AI 的價值判準已經變了。以前問題是模型知不知道答案。現在問題是系統能不能把事情做完。這兩者之間有很大距離。一個模型可以有很高的知識分數及在靜態題目上表現漂亮,但當它進入真實任務,必須調 API、讀文件、搜尋資訊、處理錯誤、判斷下一步、避免無限循環,甚至在工具故障時改道,它就是在行動。NVIDIA 文章甚至直接指出一個代理即使使用頂級模型,也可能因為虛構 API schema,或在搜尋失敗後陷入無限循環而整體失敗,所以高分只是前提,不是完成工作的保證。
這也是為甚麼今天很多人談 AI,仍然停留在錯誤的興奮點上。看見模型刷新排行榜就以為下一步自然是產業落地;看見某個 benchmark 分數提升就以為企業導入後也會同步變強。但企業真正關心的是 operational reliability,要的是代理在流程中是否可監控、是否會在中途失手、是否能在限制條件下完成整個任務。對企業而言,一個回答得很漂亮但做不完工作的代理,價值遠低於一個語言沒有那麼華麗、卻能穩定完成流程的系統。這代表 AI 的競爭單位正在由「模型能力」轉向「任務完成能力」。
如果從研究角度看,這個轉變也已經很清楚。IBM Research 與其他研究者回顧了 120 個 AI 代理評估方法後指出,現時代理評估的核心問題之一是不能只看結果正不正確,也要更細緻地觀察中間步驟,因為代理的失敗是出在規劃、工具調用、反饋修正與動態適應等過程。研究者甚至用一句很準確的話去形容評估:evaluation is a compass。若指南針本身失真,整個發展方向也會被帶偏。
這句話很值得延伸。因為今天所謂「分數迷思」,真正問題是大家正在用不適合代理時代的指南針。模型時代的 benchmark 大多是靜態、封閉、答案明確的題目。代理時代面對的卻是開放、動態、含糊、多步驟、會受環境影響的任務。這兩種世界不是同一種世界。在前者,對錯相對清楚;在後者,真正的難度在於路徑。你要先理解目標,再拆解任務,再調用工具,再根據外部回應修正下一步。只要其中一段出錯,即使最後文字看起來像樣,整件事仍然是失敗的。所以未來評估 AI 代理時,真正該問的問題會越來越接近管理學與工程學,例如它是否會在局部成功中隱藏整體失敗。這些都不是傳統分數能夠反映的。
事實上,較新的代理 benchmark 也已經在往這個方向修正。NVIDIA 提到,代理評估更適合看 Task Success Rate、Tool Call Accuracy 和 Trajectory Efficiency,也就是任務是否真正完成、工具是否精準調用、整條執行軌跡是否有效率。 這是說 AI 代理的價值在於「它是否能把知識變成過程,最後完成工作」。同樣地,IBM 提到像 OSWorld、AppWorld、CRMWorld 這些 benchmark,已經開始測代理如何更新試算表、執行程式而不弄垮系統、分析真實業務數據。更值得留意的是,IBM 引述研究者的觀察:這些新 benchmark 極具挑戰,連表現最好的代理得分都可能低至 5%。 這是提醒大家:一旦評估開始接近真實世界,表面上的高分神話就會迅速收縮。
這裡有一個更深層的結構問題。當 AI 從模型變成代理,技術焦點其實也從「表徵智能」轉向「制度接口」。模型階段主要關心的是語言、知識、推理。代理階段真正困難的是它如何接上現實世界的工具鏈、資料流、工作規則與責任邊界。也就是說,代理的能力不只取決於模型本身,更取決於它身處的制度環境。它讀甚麼文件,調甚麼 API,面對怎樣的權限管理,出錯後能否回滾,操作是否可審計,與人類交接時是否清楚。這些東西都不是 benchmark 排行榜一眼看得見的,但它們才真正決定一個代理是否能用。
所以未來 AI 發展要看產業是否繼續沉迷於一種好看的錯覺。那種錯覺是:只要模型更強,代理自然就會成熟。但從代理的結構來看,成熟是整套行動鏈條的穩定。你可以把這理解成一種評估重心的遷移:由 intelligence score 遷移到 execution integrity。真正有價值的代理是最少在現實裡出事的代理。
這個判準一旦建立,整個 AI 產業的競爭方式也會變。未來大家比較的會是誰的代理可以在企業流程中跑完更多長鏈路任務,即是 AI 的戰場會由「語言表現」轉向「系統可信度」。這會直接改寫產品設計、企業採購、監管思路,甚至改寫公眾對 AI 強弱的理解。
TheAgentCompany 這類較貼近職場情境的研究正好說明這種落差。該研究建立一個模擬公司環境,讓 AI 代理像數位員工一樣瀏覽網頁、寫程式、執行程式、與同事互動,結果發現最具競爭力的代理只能自主完成約 30% 任務。研究者的結論很克制:較簡單的工作可以被自主解決,但更困難的長鏈路任務仍超出目前系統能力。 這個結果的價值在於它較誠實地揭示了代理距離真正工作現場還有多遠。
所以今天若還以模型分數作為 AI 代理的主要評估標準,其實是用舊地圖理解新地形。這不只會導致產品判斷失真,也會讓市場與媒體持續誤讀 AI 的真實進度。跑分可以告訴我們一台引擎多有力,卻不能告訴我們一輛車能否安全開完整段路。代理要面對的是路,不是馬力表。
AI 下一階段真正的問題是它能否在現實世界裡,穩定、完整、負責任地做成一件事。當這個問題取代分數崇拜,AI 評估才算真正進入下一個時代。
輝達揭AI代理評估盲點 籲開發者擺脫模型分數迷思
文章定位: