AI agent (智慧代理) 是 基於 ”理性思維模式” 對 LLM (大語言模型) 的一種 ”馴化” 嘗試
👋 嘿,我是 Browny。
Informal Writing 書寫 技術趨勢、溝通領導、概念理解與生活實踐。
每週一四派送,訂閱起來👇。也在 threads 上面分享比較 即時的 insight,歡迎關注 🏃♂️
閱讀時間:6 分鐘
📌 引言
仰賴基礎模型的能力持續進化以外,如何透過引入工作流的方式實際落地 AI,是目前 AI 領域的一大研究重點。
AI agent 正是這股浪潮頂峰的關鍵字。Andrew Ng 最近的一場分享上,更是對 AI agent 蘊含的潛力,不吝溢美之詞。
前陣子完成了一門 AI agent 相關的網路課程 “Multi AI Agent Systems with crewAI“,花了一些時間梳理自己對 AI agent 的理解,利用這篇文章深入淺出的和大家分享:
AI agent vs. LLM/RAG
我如何理解 Agentic
AI agent面臨哪些技術挑戰
哪些領域適合 AI agent 的應用
AI agent 可以為我們的生活帶來什麼反思
.
📌 AI agent vs. LLM/RAG
💡 AI agent 的 3 個自動
引述 老石談芯 介紹 AI agent 當中的一段話,我覺得還蠻容易明白的:
AI agent 到底是什麼呢?說白了,他就是一個基於大模型 (LLM) 的智能體。
他內嵌了一個大模型,但是在上面衍生出了很多自主的能力。
和傳統大模型這種一問一答的工作方式不一樣,AI agent 的厲害之處在於三個自動:
1. 自動「感知環境」 2. 自動「規劃決策」 3. 自動「執行動作」
細想,感知 → 規劃 → 行動 這個流程,不就涵蓋了我們清醒時間的所有活動嗎 XD。其實也跟程式設計的概念相當類似: Input → Processing → Output。
這個概念一帽子蓋下去,LLM/RAG/AI agent
應該都不出這個框架,那當中的差別究竟為何?
LLM: 使用者輸入一請求/查詢 (感知) → 模型進行理解 (規劃) → 模型生成回答 (行動)
RAG: 使用者輸入一請求/查詢 (感知) → 模型進行理解 + 調用外部知識 (規劃) → 模型生成回答 (行動)
AI agent: 自動感知 → 自動規劃 → 自動行動 ?
.
我認為,AI agent 有別於 LLM/RAG 就在於「規劃」能力的 複雜度/抽象程度。
以安排旅遊為例,我們可以在 LLM 的對話當中詢問某個地區的著名景點有哪些 (低抽象),但是要 LLM 幫我們安排一個五天四夜的行程 (高抽象),模型的回答往往無法直接用上 (= 無法落地)。
.
💡 AI agent 處理 “高複雜/高抽象” 的 4 種對策
面對 高複雜/高抽象 的 問題/任務 的時候,人類依賴的是結構性思維。Andrew 在演講中提到的 4 個模式 (如上圖),其實就是人類在解決問題時,展現出的特性:
Reflection (反思):對於產出我們心中有一把尺,有一個衡量標準,這個標準可以引導我們對規劃進行迭代,直到滿足那個衡量標準。
例如:在一天當中安排了 A, B, C, D 四個旅遊點,那麼在時間順序上要怎麼安排呢? 你可能會考量到整體路線是否順暢 (最短距離)、用餐是否方便、體力上是否能負荷 (上午可以比較多走路,下午盡量耍廢行程!?),等等…。
你會嘗試 ABCD 各種排列組合,直到有一個順序,能夠最好地滿足這些需求。.
Tool Use (工具使用):這個其實 RAG 就有出現。當規劃所需要的知識並沒有在模型訓練的資料集當中的時候,模型的回答經常會出現幻覺 (瞎掰),所以能夠讓模型可以調用合適的工具,也是必須。
例如:你要查詢 A, B, C, D 這些地點的交通方式,需要讓模型可以調用 Google Map 的路徑規劃功能。.
Planning (任務拆解):這裡我將他理解成任務拆解的能力。面對複雜任務,人類的一個強項就是各個擊破,將大任務拆解成更具體的小執行項目,各自調用反思和工具,最後再將結果彙整起來。
例如:我一般規劃行程都是先決定住宿飯店後,然後根據景點地理位置,做日程安排。所以,我自己的任務拆解會變成:1. 選擇合適飯店 → 2. 以飯店為中心輻射狀做景點蒐集/研究 → 3. 將相近的景點排在同一天 → 4. 每日的細節路線和餐廳規劃
。
當然,你也可以嘗試請 LLM 進行任務拆解的嘗試 (不得不說,考量的比我還周全 Orz):.
Multi-agent collaboration (多代理協作):這點我覺得是延續任務拆解,然後在引入「委派」的概念。所謂:「聞道有先後、術業有專攻」,你可以將不同的子任務,交付給各有所長的 agents,讓他們各司其職,並且互相協作。
例如:我們可以有1. 交通 agent 2. 住宿 agent 3. 景點/美食 agent 4. 購票 agent
等等…,一起通力合作,完成5天4夜的行程安排。
.
📌 我如何理解 Agentic
融合 3 個自動 + 4 個 Design Patterns,再加上網路上的一些 survey,我心中的 AI agent 或者說 Agentic workflow 大致上如上圖所示:
Agentic scope: 圖中紅框,可以理解成一個處理單元,接收輸入 → 處理後 → 輸出結果,不管是 LLM, RAG, AI agent 其實都涵蓋這個 scope 當中。只是 AI agent 多具備了推理能力、工具使用能力、記憶和學習的能力。
任務拆解後的每一個子任務,也可以由獨立的 Agent scope 來完成 (也就是多代理協作: Multi-agent collaboration)。Flow control:圖中藍底方框處。AI agent 在規劃階段引入結構性思維,包括:「推理」和「記憶」。這邊先講推理:推理就像是把符號邏輯系統引入到 LLM 當中,透過流程控制的方式,做到 任務拆解 與 反思。
Tool use:圖中綠底方框。工具的使用是對每一個階段的賦能,不僅限於規劃階段。像是自動駕駛任務的感測可能來自各種 sensors,行動則包括油門與方向的控制等等…。規劃階段最常使用的工具就是搜尋引擎 和 網站爬蟲 (即 RAG)。
Learning:圖中橘色線。學習能力前面比較沒有提到,算是比較進階的功能。但我覺得會是蠻重要的一個設計思考:如何迭代優化 Agent 的能力,有點類似將 反思 的迴圈套用到與外部世界的互動上,不斷迭代優化。
在產品設計當中,置入直接/間接的反饋機制,讓 agent 知道每一次的產出是否實用 (參考: AI 如何創造產品價值,打造商業護城河)。將這樣的反饋寫進 記憶 模組當中。未來的 規劃 就能夠以 記憶 做微調,這也是實現 Agent 個人化的關鍵步驟。
.
📌 AI agent 面臨哪些技術挑戰
多模態能力
AI agent 需要具備處理和整合多種模態資訊(如文字、圖像、音訊等)的能力,才能在複雜環境下更好地與外部世界互動。目前大多數 AI agent 主要基於文字,在多模態互動方面還有待提高。記憶與持續學習
AI agent 需要長期記憶和持續學習的能力,以積累經驗並不斷改進。現有的大語言模型在訓練後往往是靜態的,缺乏動態更新知識的機制。任務規劃與執行
將複雜任務分解為子任務並有效執行是 AI agent 面臨的一大挑戰。目前即使是先進的模型如 GPT-4,在處理現實世界的複雜任務時,成功率也不高。所以現在有很多的 agent framework 其實只是把 workflow 拉出來而已,實際上的任務拆解還是得靠我們。成本與效率
運行複雜的 AI agent 系統需要大量計算資源,如何在保證性能的同時降低成本是一個實際挑戰。
註:Multi-agent 有個好處是可以針對特定的任務採用合適的模型,可能比起不拆解任務直接用一個大模型來的省錢。
.
📌 哪些領域適合 AI agent 的應用
AI 技術更像一種工具,而不是一個產品。引用我之前在 threads 上面對於 AI 時代是否應該學習程式設計 的看法:
目前的 AI 技術雖然能夠將明確的規格正確地轉換成程式碼,但要從零開始,設計一個完整的系統,AI 仍有相當長的路要走。
這涉及到 LLM 系統的本質:它們本質上是以自然語言形式壓縮的人類知識庫。然而,在面對複雜的系統設計時,人類大腦運用的是抽象思維和符號邏輯。
「使用自然語言描述的問題和挑戰」→ 如何轉化成 →「適合指導我們實際行動的抽象概念與符號」,這個轉化的過程,在當前的 LLM 訓練資料中並不存在 (意思是 WHY 的東西很少被紀錄 or 不適合用自然語言紀錄)。[註1], [註2]
[註1] AI agent 可能是一種嘗試,但就不是 data driven 的。
[註2] 端到端的訓練也是一種作法 (e.g. Tesla FSD12),意思是自然語言的輸入可以直接映射至物理世界的輸出,省去中間這層轉譯 (自然語言→程式語言/機器碼→致動器),但是少了中間這層 程式語言/機器碼 的抽象,就得為不同的輸入和輸出做獨立的訓練。
因此,比起問哪些領域適合 AI agent 的應用,我覺得更恰當的問法是:如何在特定領域找到一個複雜度剛剛好的端到端問題,可以透過 AI agent 的方式讓 AI 技術實際落地。
.
📌 AI agent 可以為我們的生活帶來什麼反思
代理就是你的信念:生活中很多問題,我們往往期望有一個簡單的解答:像是應不應該換工作,應不應該結婚生子,等等…。與其直接照抄別人的答案 或是 按照約定俗成的慣性,我覺得應該 Be more agentic:去拆解、去反思、去學習,最後找到一個屬於自己的答案。
儲備你的心智工具:我們往往比較看重那些實際能夠幫助我們行動的工具,像是:走進黑暗的山洞會需要手電筒來照明、要組裝家具需要鐵鎚和螺絲起子。但是,感知 和 規劃 的工具,也是同等重要的:鍛鍊自己篩選優質資訊的能力 (注意力的手電筒),鍛鍊自己拆解複雜任務的能力 (問題鐵鎚)。優化輸出之餘也要優化輸入。
學會委派與授權:「吾生也有涯,而知也無涯」,一個人的時間有限,專注在自己能發揮更大價值的地方,好好地和其他人協作,或是委派/授權給團隊分工完成:「一個人走得快;一群人走得遠」。
.
📌 結語
你覺得套用了理性思維框架的 LLM 有辦法全面超車人類嗎? 如果可以那真的是青出於藍更勝於藍了,你怎麼看呢?
若有朝一日,Agentic workflow 已經能夠用相當低的成本廣泛地處理各種複雜問題的話,那我覺得人類只剩下最後一道防線了:「追問存在的意義」
你覺得 AI agent 還需要多久才能追趕上人類呢? 哪些應用場景特別適合 AI agent 呢? 歡迎你留下你的看法,一起討論這個有趣的議題。
.
🔖 參考資料
What's next for AI agentic workflows ft. Andrew Ng of AI Fund - Youtube
既然AI這麼火,如何幫我們打工人掙錢? - Youtube
What is an agent? - https://blog.langchain.dev/what-is-an-agent/
LLM Powered Autonomous Agents - https://lilianweng.github.io/posts/2023-06-23-agent/
What are AI Agents? - https://aws.amazon.com/what-is/ai-agents/
AI Agent來了,但它是什麼?AI代理介紹、趨勢全解讀 - https://www.gvm.com.tw/article/113965
什麼是 AI Agent - t.ly/Uk5xs
什麼時候該用多智能體是不是一定要用多智能體?- https://baoyu.io/blog/ai/when-to-use-multi-agent-systems-or-cot
你需要的不是智能體,而是一個適合 AI 的工作流 - https://x.com/dotey/status/1810084451659219275
六大因素決定了一個Agent是否優秀 - https://x.com/Yangyixxxx/status/1809122326396715375
這篇寫的真好,安排旅遊這個例子幫我打通了很多卡住的點!