重新定義 AI 應用:從「單體模型」到「智慧代理人」的範式轉移

重新定義 AI 應用:從「單體模型」到「智慧代理人」的範式轉移

前言:AI 代理人時代的來臨

2024 年,人工智慧領域正在經歷一場關鍵的範式轉移。我們對生成式 AI 的認知,正從單純的「大型語言模型(LLMs)」轉變為能夠自主規劃、行動和學習的「AI 代理人(AI Agents)」。

過去,模型受限於訓練數據,無法處理個人化或需要外部資訊的複雜任務。如今,透過系統化設計,AI 代理人正在解放 LLM 的潛力,讓 AI 不僅能生成文本,更能解決真實世界的問題

究竟什麼是 AI 代理人?它與常見的 RAG 系統有何不同?本文將深入探討這一重大轉變,以及它如何重塑我們對 AI 應用邊界的認知。


第一部:系統化思維:從單體模型到複合式 AI 系統

要理解 AI 代理人,首先必須掌握第一個重大轉變:從單體模型(Monolithic Models)到複合式 AI 系統(Compound AI Systems)的演進。

1. 單體模型的局限性

單純的 LLM 受到其訓練數據的限制,影響了它們對世界的認知範圍任務解決能力。它們難以適應新的資訊或個人化的場景。

【案例:規劃假期】

想像您想知道自己還剩下多少假。如果直接詢問 LLM,它會給出一個錯誤答案,因為它不具備您的身份,也無法訪問您的敏感資料庫

LLM 擅長於總結文件、撰寫郵件初稿等內容生成任務,但其潛力只有在與外部系統結合時才能真正釋放。

2. 複合式 AI 系統(Compound AI Systems)的崛起

複合式 AI 系統承認,某些問題最好透過系統設計原則來解決,而不是單純依賴一個大型模型。

  • 核心原理: 系統是模組化的。它可以由多個組件構成,包括:
    • 不同類型的模型: LLM、微調模型、圖像生成模型等。
    • 程式化組件: 輸出驗證器、查詢分解器、資料庫搜尋器、外部工具等。
  • 解決方案: 在「規劃假期」的案例中,複合式系統會將您的查詢輸入 LLM,但 LLM 被提示生成一個資料庫搜尋語句。該語句會去存取儲存假期資料的專屬資料庫,檢索正確數字,再由 LLM 格式化輸出答案。
  • RAG 的普及: 檢索增強生成(Retrieval Augmented Generation, RAG)是最流行且應用最廣泛的複合式 AI 系統之一。它通過檢索公司文件或知識庫來彌補模型知識的不足。

第二部:控制邏輯的轉移:代理人與程式化路徑的區別

複合式 AI 系統已經證明了其有效性,但大多數傳統系統(包括許多 RAG 系統)都採用程式化控制邏輯(Programmatic Control Logic)

1. 程式化控制邏輯的優點與局限

在傳統複合式系統中,人類預先定義了程式的控制邏輯,即查詢必須遵循的固定路徑

  • 優點: 對於狹隘、定義明確的問題集(例如:永遠只問假期資訊),程式化方法更有效率,因為每個查詢都會以相同的方式被處理,避免不必要的迭代。
  • 局限: 如果使用者輸入一個「跑題」的查詢(例如:問天氣),系統就會失效,因為它的固定路徑永遠指向假期資料庫,無法自主調整行為

2. 智慧代理人:將 LLM 置於決策核心

AI 代理人的概念正是要打破這種固定路徑,將系統的控制邏輯交給大型語言模型來負責。

  • 核心能力: 歸功於 LLM 在推理(Reasoning)能力上的巨大進步,我們可以提示模型去分解複雜問題,並制定解決計畫
  • 「慢思考」模式: 代理人被設計成「慢思考(Think Slow)」:它會制定計畫、執行計畫的每一步、觀察結果、判斷是否需要調整計畫,直到得出最終答案。這使得系統能夠處理多樣性高複雜的任務,例如獨立解決程式碼庫中的 GitHub Issue。
  • 代理人方法: 將 LLM 置於邏輯控制核心的這種方法,即被稱為代理人(Agentic Approach)

第三部:AI 代理人的三大核心能力

一個完整的 LLM 代理人通常具備三個關鍵能力,這使其能夠進行自主決策問題解決

1. 推理(Reasoning)

  • 定義: 將模型作為解決問題的核心。模型被提示去制定計畫,並在執行過程中推理每一步的邏輯。
  • 機制: 就像人類邊思考邊解決問題一樣,模型會記錄其內部的思考日誌,這些日誌可用於後續的步驟調整和錯誤修正。

2. 行動(Acting)— 透過工具(Tools)

  • 定義: 代理人需要透過外部程式(稱為工具, Tools)來執行現實世界中的操作。模型會自主決定何時調用以及如何調用這些工具來執行解決方案。
  • 工具範例:
    • 搜尋引擎: 搜尋網路或專屬資料庫。
    • 計算器: 執行數學運算。
    • 程式碼執行器: 執行程式碼片段(例如操作資料庫或執行 Python 腳本)。
    • 其他 LLM 或 API: 例如調用一個專門用於翻譯的語言模型。

3. 記憶(Memory)

  • 定義: 記憶使代理人能夠保持上下文實現個人化
  • 記憶類型:
    • 短期記憶(Short-Term): 儲存模型在當前問題解決過程中的內部推理日誌和觀察結果(例如 ReACT 中的觀察結果)。
    • 長期記憶(Long-Term): 儲存使用者與代理人互動的歷史記錄,從而在後續對話中提供更個人化、連貫的體驗。

ReACT 框架:推理與行動的結合

最受歡迎的代理人配置方式之一是 ReACT(Reasoning and Acting)框架。

  • 流程:
    1. 使用者查詢輸入模型。
    2. 模型被提示「慢思考」(規劃你的工作,然後嘗試執行)。
    3. 模型進行思考(Thought),制定計畫,並決定是否需要工具。
    4. 模型進行行動(Action),調用選定的外部工具。
    5. 工具返回結果,模型進行觀察(Observation)
    6. 模型根據觀察結果迭代計畫,直到得出最終答案。

第四部:自主性的光譜與 AI 應用的未來

AI 代理人系統將極大地擴展 AI 的應用範圍,但系統設計者必須權衡自主性效率

1. AI 自主性的滑動標尺

系統設計者必須根據任務的性質來決定所需的 AI 自主性(Autonomy)程度:

  • 低自主性(窄域問題): 對於狹隘且定義明確的問題(如前述的假期查詢),程式化的方法更有效率,因為它避免了代理人規劃可能產生的不必要迴圈。
  • 高自主性(複雜問題): 對於預期處理多樣化查詢複雜任務(例如:自主解決程式碼錯誤、執行複雜的數據分析流程)的系統,代理人方法則不可或缺,因為手動配置所有可能路徑的成本過高。

2. 代理人的潛力與挑戰

  • 巨大潛力: AI 代理人代表著生成式 AI 實用性的飛躍,使 AI 能夠處理複雜的多步驟任務,並與各種外部工具和服務進行實時互動
  • 早期階段: 儘管進展迅速,AI 代理人仍處於發展的早期階段。在許多高風險或關鍵應用中,人類仍需保持在迴路中(Human-in-the-Loop),以監督和驗證其準確性。

結語:從工具到同事

從無法訪問個人資料的單體模型,到能夠自主規劃並調用外部工具的智慧代理人,這場轉變正在將 AI 從一個單純的文本生成工具轉變為一個高階的問題解決者

AI 代理人系統的發展,不僅僅是技術的提升,更是人機協作模式的升級。它標誌著 AI 應用將更加深入我們的業務流程,成為具備推理、行動和記憶能力的「數位同事」。

你準備好為你的業務流程設計第一個 AI 代理人了嗎?


延伸閱讀

張貼留言

0 留言