
重新定義 AI 應用:從「單體模型」到「智慧代理人」的範式轉移
前言:AI 代理人時代的來臨
2024 年,人工智慧領域正在經歷一場關鍵的範式轉移。我們對生成式 AI 的認知,正從單純的「大型語言模型(LLMs)」轉變為能夠自主規劃、行動和學習的「AI 代理人(AI Agents)」。
過去,模型受限於訓練數據,無法處理個人化或需要外部資訊的複雜任務。如今,透過系統化設計,AI 代理人正在解放 LLM 的潛力,讓 AI 不僅能生成文本,更能解決真實世界的問題。
究竟什麼是 AI 代理人?它與常見的 RAG 系統有何不同?本文將深入探討這一重大轉變,以及它如何重塑我們對 AI 應用邊界的認知。
第一部:系統化思維:從單體模型到複合式 AI 系統
要理解 AI 代理人,首先必須掌握第一個重大轉變:從單體模型(Monolithic Models)到複合式 AI 系統(Compound AI Systems)的演進。
1. 單體模型的局限性
單純的 LLM 受到其訓練數據的限制,影響了它們對世界的認知範圍和任務解決能力。它們難以適應新的資訊或個人化的場景。
【案例:規劃假期】
想像您想知道自己還剩下多少假。如果直接詢問 LLM,它會給出一個錯誤答案,因為它不具備您的身份,也無法訪問您的敏感資料庫。
LLM 擅長於總結文件、撰寫郵件初稿等內容生成任務,但其潛力只有在與外部系統結合時才能真正釋放。
2. 複合式 AI 系統(Compound AI Systems)的崛起
複合式 AI 系統承認,某些問題最好透過系統設計原則來解決,而不是單純依賴一個大型模型。
- 核心原理: 系統是模組化的。它可以由多個組件構成,包括:
- 不同類型的模型: LLM、微調模型、圖像生成模型等。
- 程式化組件: 輸出驗證器、查詢分解器、資料庫搜尋器、外部工具等。
- 解決方案: 在「規劃假期」的案例中,複合式系統會將您的查詢輸入 LLM,但 LLM 被提示生成一個資料庫搜尋語句。該語句會去存取儲存假期資料的專屬資料庫,檢索正確數字,再由 LLM 格式化輸出答案。
- RAG 的普及: 檢索增強生成(Retrieval Augmented Generation, RAG)是最流行且應用最廣泛的複合式 AI 系統之一。它通過檢索公司文件或知識庫來彌補模型知識的不足。
第二部:控制邏輯的轉移:代理人與程式化路徑的區別
複合式 AI 系統已經證明了其有效性,但大多數傳統系統(包括許多 RAG 系統)都採用程式化控制邏輯(Programmatic Control Logic)。
1. 程式化控制邏輯的優點與局限
在傳統複合式系統中,人類預先定義了程式的控制邏輯,即查詢必須遵循的固定路徑。
- 優點: 對於狹隘、定義明確的問題集(例如:永遠只問假期資訊),程式化方法更有效率,因為每個查詢都會以相同的方式被處理,避免不必要的迭代。
- 局限: 如果使用者輸入一個「跑題」的查詢(例如:問天氣),系統就會失效,因為它的固定路徑永遠指向假期資料庫,無法自主調整行為。
2. 智慧代理人:將 LLM 置於決策核心
AI 代理人的概念正是要打破這種固定路徑,將系統的控制邏輯交給大型語言模型來負責。
- 核心能力: 歸功於 LLM 在推理(Reasoning)能力上的巨大進步,我們可以提示模型去分解複雜問題,並制定解決計畫。
- 「慢思考」模式: 代理人被設計成「慢思考(Think Slow)」:它會制定計畫、執行計畫的每一步、觀察結果、判斷是否需要調整計畫,直到得出最終答案。這使得系統能夠處理多樣性高且複雜的任務,例如獨立解決程式碼庫中的 GitHub Issue。
- 代理人方法: 將 LLM 置於邏輯控制核心的這種方法,即被稱為代理人(Agentic Approach)。
第三部:AI 代理人的三大核心能力
一個完整的 LLM 代理人通常具備三個關鍵能力,這使其能夠進行自主決策與問題解決:
1. 推理(Reasoning)
- 定義: 將模型作為解決問題的核心。模型被提示去制定計畫,並在執行過程中推理每一步的邏輯。
- 機制: 就像人類邊思考邊解決問題一樣,模型會記錄其內部的思考日誌,這些日誌可用於後續的步驟調整和錯誤修正。
2. 行動(Acting)— 透過工具(Tools)
- 定義: 代理人需要透過外部程式(稱為工具, Tools)來執行現實世界中的操作。模型會自主決定何時調用以及如何調用這些工具來執行解決方案。
- 工具範例:
- 搜尋引擎: 搜尋網路或專屬資料庫。
- 計算器: 執行數學運算。
- 程式碼執行器: 執行程式碼片段(例如操作資料庫或執行 Python 腳本)。
- 其他 LLM 或 API: 例如調用一個專門用於翻譯的語言模型。
3. 記憶(Memory)
- 定義: 記憶使代理人能夠保持上下文和實現個人化。
- 記憶類型:
- 短期記憶(Short-Term): 儲存模型在當前問題解決過程中的內部推理日誌和觀察結果(例如 ReACT 中的觀察結果)。
- 長期記憶(Long-Term): 儲存使用者與代理人互動的歷史記錄,從而在後續對話中提供更個人化、連貫的體驗。
ReACT 框架:推理與行動的結合
最受歡迎的代理人配置方式之一是 ReACT(Reasoning and Acting)框架。
- 流程:
- 使用者查詢輸入模型。
- 模型被提示「慢思考」(規劃你的工作,然後嘗試執行)。
- 模型進行思考(Thought),制定計畫,並決定是否需要工具。
- 模型進行行動(Action),調用選定的外部工具。
- 工具返回結果,模型進行觀察(Observation)。
- 模型根據觀察結果迭代計畫,直到得出最終答案。
第四部:自主性的光譜與 AI 應用的未來
AI 代理人系統將極大地擴展 AI 的應用範圍,但系統設計者必須權衡自主性與效率。
1. AI 自主性的滑動標尺
系統設計者必須根據任務的性質來決定所需的 AI 自主性(Autonomy)程度:
- 低自主性(窄域問題): 對於狹隘且定義明確的問題(如前述的假期查詢),程式化的方法更有效率,因為它避免了代理人規劃可能產生的不必要迴圈。
- 高自主性(複雜問題): 對於預期處理多樣化查詢和複雜任務(例如:自主解決程式碼錯誤、執行複雜的數據分析流程)的系統,代理人方法則不可或缺,因為手動配置所有可能路徑的成本過高。
2. 代理人的潛力與挑戰
- 巨大潛力: AI 代理人代表著生成式 AI 實用性的飛躍,使 AI 能夠處理複雜的多步驟任務,並與各種外部工具和服務進行實時互動。
- 早期階段: 儘管進展迅速,AI 代理人仍處於發展的早期階段。在許多高風險或關鍵應用中,人類仍需保持在迴路中(Human-in-the-Loop),以監督和驗證其準確性。
結語:從工具到同事
從無法訪問個人資料的單體模型,到能夠自主規劃並調用外部工具的智慧代理人,這場轉變正在將 AI 從一個單純的文本生成工具轉變為一個高階的問題解決者。
AI 代理人系統的發展,不僅僅是技術的提升,更是人機協作模式的升級。它標誌著 AI 應用將更加深入我們的業務流程,成為具備推理、行動和記憶能力的「數位同事」。
你準備好為你的業務流程設計第一個 AI 代理人了嗎?
0 留言