Agent的爭奪戰(zhàn)

Frank_Chia 2024-07-30

展開全文

前幾個月各大廠商還在為大模型大打價格戰(zhàn)，而后開始的是AI Agent的爭奪——大家突然關(guān)心起AI的應(yīng)用場景，開始做瀏覽器插件，做APP搶奪市場。為什么會這樣？在這個系列文章里，作者嘗試高速我們答案。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由 ZAKER 提供

大模型的橫空出世，重新點燃了市場對AI的熱情。AI Agent的概念，更是將AI的熱潮推向了新的高度。從去年開始，AI Agent就成為了炙手可熱的名詞，其熱度絲毫不亞于對大模型的討論，甚至一眾大佬都紛紛為AI Agent站臺。

2023年下半年，OpenAI聯(lián)合創(chuàng)始人，前TeslaAI總監(jiān)Andrej Karpathy說道：

“如果一篇論文提出了某種不同的訓(xùn)練方法，OpenAI內(nèi)部會嗤之以鼻，認(rèn)為都是我們玩剩下的。但是當(dāng)新的AI Agents論文出來的時候，我們會十分認(rèn)真且興奮地討論。普通人、創(chuàng)業(yè)者和極客在構(gòu)建AI Agents方面相比OpenAI這樣的公司更有優(yōu)勢?！?/p>

在AI Ascent 2024大會上，斯坦福大學(xué)教授、前谷歌大腦項目創(chuàng)始人，吳恩達(dá)分享了關(guān)于AI Agent的最新趨勢與洞察

AI Agent（AI智能體）工作流將在今年推動人工智能取得巨大進(jìn)步——甚至可能超過下一代基礎(chǔ)模型。這是一個重要的、令人興奮的趨勢，我呼吁所有人工智能從業(yè)者都關(guān)注它。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

微軟創(chuàng)始人比爾蓋茨，也通過個人網(wǎng)站發(fā)表了對AI Agent的看法：

AI Agent將成為下一個平臺，簡而言之，AI Agent幾乎將在任何活動和生活領(lǐng)域提供幫助，對軟件行業(yè)和社會產(chǎn)生深遠(yuǎn)的影響。

與此同時，趁著這波浪潮，在短短的一年時間內(nèi)，AI Agent（AI智能體）領(lǐng)域的創(chuàng)業(yè)公司和獨角獸也實現(xiàn)了爆發(fā)式的增長。早在去年3月份，AutoGPT就在GitHub上獲得了7.4萬星，并快速成為史上Star數(shù)量增長最快的開源項目，如今已經(jīng)獲得超過16萬星。后續(xù)發(fā)布的BabyAGI、AgentGPT也如雨后春筍般涌現(xiàn)，調(diào)研報告、訂購披薩、發(fā)送郵件、旅行攻略，無數(shù)的Agent應(yīng)用場景紛紛開始落地。

超強(qiáng)的云服務(wù)器-阿里云

阿里云

超強(qiáng)的云服務(wù)器-阿里云

在國內(nèi)，AI Agents相關(guān)的產(chǎn)品也相繼誕生。早在去年7月，阿里云就發(fā)布了旗下第一個智能體——ModelScopeGPT，面向開發(fā)者群體。隨后百度文心智能體平臺、字節(jié)Coze、騰訊元器，各大廠商的AI智能體平臺也紛至沓來。

面對如此巨大的熱潮，相信很多讀者在心潮澎湃的同時，也會心存疑慮。AI Agent到底是什么？是真正的科技突破還是科技泡沫？對企業(yè)和個人能帶來什么影響？

接下來，風(fēng)叔將使用5W1H分析框架來詳細(xì)拆解AI Agent，一步步帶著大家了解AI Agent的全貌。由于內(nèi)容比較多，風(fēng)叔將通過三篇文章來逐步闡述全部內(nèi)容。

上篇：介紹What + Why，主要解答以下問題。

原來朋友的防水好貨都是從這里拿的, 價格便宜, 質(zhì)量保證!

愛采購

原來朋友的防水好貨都是從這里拿的, 價格便宜, 質(zhì)量保證!

What：AI Agent是什么？有哪些組成部分？AI Agent的原理是什么？AI Agent是怎么分類的？

Why：為什么會產(chǎn)生AI Agent？AI Agent的優(yōu)勢和劣勢是什么？為什么企業(yè)和個人都要關(guān)注AI Agent？

中篇：介紹When + Where + Who，主要解答以下問題。

When：AI Agent的發(fā)展歷程是怎樣的？AI Agent未來的發(fā)展趨勢是怎樣的？

Where：AI Agent有哪些應(yīng)用場景？

Who：AI Agent領(lǐng)域的玩家有哪些？AI Agent領(lǐng)域的行業(yè)價值鏈?zhǔn)窃鯓拥模?/p>

下篇：介紹 How，主要解答以下問題。

How：如何實現(xiàn)AI Agent？AI Agent包括哪些系統(tǒng)模塊？如何開始學(xué)習(xí)AI Agent？

超強(qiáng)的云服務(wù)器-阿里云

阿里云

超強(qiáng)的云服務(wù)器-阿里云

下面正式開始5W1H框架對AI Agent的拆解之旅！

一、5W1H分析框架之What

1.1 AI Agent到底是什么？

從概念上來說，AI Agent（智能體）是一種不需要持續(xù)人類干預(yù)的AI系統(tǒng)，可以基于環(huán)境和背景信息，自主分析各種問題，做出邏輯決策，并且在沒有持續(xù)人類輸入的情況下處理多種任務(wù)。

AlphaGo就是一個典型的AI Agent，它可以在和人類對弈圍棋的過程中，根據(jù)當(dāng)前的棋局和對手的行動，自主決策下一步的動作。AI助手也是AI Agent，比如你只需要給AI助手下達(dá)一個指令，“幫我預(yù)訂明早10點上海飛深圳的機(jī)票”，AI助手就能自動幫你完成從機(jī)票搜索、查詢、下單、確認(rèn)的全部動作。

從結(jié)構(gòu)上來說，一個AI Agent包括三個部分，如下圖所示：

訊飛繪文：快速出精品

訊飛繪文

訊飛繪文：快速出精品

Perception（輸入）：AI Agent通過文字輸入、傳感器、攝像頭、麥克風(fēng)等等，建立起對外部世界或環(huán)境的感知。

Brain（大腦）：大腦是AI Agent最重要的部分，包括信息存儲、記憶、知識庫、規(guī)劃決策系統(tǒng)。

Action（行動）：基于Brain給出的決策進(jìn)行下一步行動，對于AI Agent來說，行動主要包括對外部工具的API 調(diào)用，或者對物理控制組件的信號輸出。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

目前在大模型熱潮的背景下，媒體上所講的AI Agent，更嚴(yán)格意義上來說應(yīng)該叫做LLM Agent，因為整個Agent最重要的控制中樞Brain，其底層是LLM大模型。如果未來產(chǎn)生了比LLM更強(qiáng)大更智能的AI技術(shù)基座，那同樣也會產(chǎn)生基于新的AI基座的Agent。下文所介紹的AI Agent，如無特殊說明，都指代LLM Agent。

那么Agent和LLM大語言模型到底是什么關(guān)系呢？可以這樣進(jìn)行簡單類比，如果把LLM（比如GPT）比作大腦中的一堆神經(jīng)元，具有記憶、常識和推理等能力，那么AI Agent就是獨立的人，除了擁有大腦之外，還擁有視覺、聽覺、味覺等多種感官，以及擁有手和腳操作外部的工具。

因此從本質(zhì)來講，AI Agent = 大語言模型+記憶+規(guī)劃+工具使用。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

接下來，我們逐步拆解AI Agent的組成部分。

1.2 詳細(xì)拆解AI Agent的構(gòu)成

1.2.1 構(gòu)成一，規(guī)劃Planning

Planning是整個AI Agent中最核心最關(guān)鍵的部分，Agent會把大型任務(wù)分解為子任務(wù)，并規(guī)劃執(zhí)行任務(wù)的流程。同時Agent還會對任務(wù)執(zhí)行的過程進(jìn)行思考和反思，從而決定是繼續(xù)執(zhí)行任務(wù)，還是判斷任務(wù)完結(jié)并終止運行。

整個Planning模塊包括兩個步驟：子任務(wù)分解，反思和完善。

步驟一，子任務(wù)分解

Agent 將大型任務(wù)分解為更小、更易于管理的子目標(biāo)，從而高效處理復(fù)雜任務(wù)。主要的子任務(wù)分解方式包括：思維鏈COT（Chain of thought）、思維樹TOT（Tree of thought）、思維圖GOT（Graph of thought）、規(guī)劃器LLM+P。

a. 思維鏈COT

思維鏈COT的全稱是Chain of Thought，當(dāng)我們對LLM這樣要求「think step by step」，會發(fā)現(xiàn)LLM會把問題分解成多個步驟，一步一步思考和解決，能使得輸出的結(jié)果更加準(zhǔn)確。這就是思維鏈，一種線性思維方式。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

b. COT-SC

一個CoT出現(xiàn)錯誤的概率比較大，我們可以讓Agent進(jìn)行發(fā)散，嘗試通過多種思路來解決問題，然后投票選擇出最佳答案，這就是CoT-SC。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

c. 思維樹TOT

思維樹TOT是對思維鏈CoT的進(jìn)一步擴(kuò)展，在思維鏈的每一步，推理出多個分支，拓?fù)湔归_成一棵思維樹。使用啟發(fā)式方法評估每個推理分支對問題解決的貢獻(xiàn)。選擇搜索算法，使用廣度優(yōu)先搜索（BFS）或深度優(yōu)先搜索（DFS）等算法來探索思維樹，并進(jìn)行前瞻和回溯。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

d. 思維圖GOT

思維樹ToT 的方式也存在一些缺陷，對于需要分解后再整合的問題，比如排序問題，排序我們可能需要分解和排序，然后再merge。這種情況下TOT就不行了，可以引入思維圖GOT來解決。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

e. LLM+P

其原理是依靠外部傳統(tǒng)規(guī)劃器來進(jìn)行長視野規(guī)劃，利用規(guī)劃域定義語言（PDDL）作為中間接口來描述規(guī)劃問題。在此過程中，LLM先將問題轉(zhuǎn)化為成”Problem PDDL”形式，然后請求經(jīng)典規(guī)劃器根據(jù)現(xiàn)有的 “Domain PDDL “生成 PDDL 計劃，最后將 PDDL 計劃翻譯回自然語言。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

步驟二，反思和完善

反思和完善機(jī)制在Agent 應(yīng)用中發(fā)揮著重要的作用，Agent 通過完善過去的行動決策和糾正以前的錯誤來不斷改進(jìn)。尤其是在現(xiàn)實世界的任務(wù)中，不可能在規(guī)劃環(huán)節(jié)就能做出萬無一失的計劃和策略，試錯是不可避免的，只有通過自我反思和逐步完善，才能一步步逼近最佳結(jié)果。

反思和完善機(jī)制的實現(xiàn)，主要有以下幾種方式。

a. ReAct

ReACT的全稱是Reasoning-Action，這種模式是讓大模型先進(jìn)行思考，思考完再進(jìn)行行動，然后根據(jù)行動的結(jié)果再進(jìn)行觀察，再進(jìn)行思考，這樣一步一步循環(huán)下去。

和ReAct相對應(yīng)的是Reasoning-Only和Action-Only。在Reasoning-Only的模式下，大模型會基于任務(wù)進(jìn)行逐步思考，并且不管有沒有獲得結(jié)果，都會把思考的每一步都執(zhí)行一遍。在Action-Only的模式下，大模型就會處于完全沒有規(guī)劃的狀態(tài)下，先進(jìn)行行動再進(jìn)行觀察，基于觀察再調(diào)整行動，導(dǎo)致最終結(jié)果不可控。

在實際的測試觀察中，ReAct模式的效果要好于Reasoning-Only和Action-Only。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

b. Reflexion

Reflecxion是一個為 Agent 配備了動態(tài)記憶和自我反思能力的框架，能夠提高 Agent 的推理能力。Reflexion 具有標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)機(jī)制，其獎勵模型提供了一個簡單的二進(jìn)制獎勵機(jī)制，執(zhí)行空間則遵循 ReAct 中的設(shè)置。每次行動，Agent 都會計算一個啟發(fā)式 ht，并根據(jù)自我反思的結(jié)果決定環(huán)境重置以開始新的試驗。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

c.Basic Reflection

還有一種反思和完善的方式，其本質(zhì)是利用左右互搏來實現(xiàn)協(xié)同進(jìn)化。比如設(shè)計一個幫助用戶完成市場調(diào)研報告的Agent系統(tǒng)，其中Generator負(fù)責(zé)輸出，Reflector負(fù)責(zé)檢查，通過兩個角色之間不斷的協(xié)同，來實現(xiàn)整個任務(wù)的反思和完善。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

1.2.2 構(gòu)成二，記憶Memory

記憶是Agent用于獲取、存儲、保留和隨后檢索信息的過程，我們先用人腦的記憶做個類比，人腦中有多種記憶類型：

感官記憶：這是記憶的最早階段，能夠在原始刺激結(jié)束后保留對感官信息（視覺、聽覺等）的印象，通常只能持續(xù)幾秒鐘。包括圖標(biāo)記憶、回聲記憶和觸覺記憶三種類型。

短時記憶（STM）或工作記憶：指的是我們當(dāng)前意識到的信息，或者在學(xué)習(xí)和推理等復(fù)雜認(rèn)知任務(wù)中所需要的信息。人類的短時記憶容量約為 7 items（Miller, 1956）、持續(xù)時長為 20-30 秒。

長時記憶（LTM）：長時記憶指的是能夠存儲很長時間，從幾天到幾十年不等的信息，它的存儲容量基本上是無限的。長時記憶又包括顯性記憶和隱性記憶，顯性記憶是可以有意識地回憶起來的事實，比如事件經(jīng)歷和語義記憶；隱性記憶是內(nèi)化后無意識的行為，比如騎自行車。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

了解了人類的記憶模式，我們再來看如何將其映射到AI Agent。

感官記憶是對原始輸入的嵌入表征的理解，包括文本、圖像或其他模式，比如圖片的紋理和風(fēng)格。短時記憶即上下文學(xué)習(xí)，由于受到Transformer上下文窗口長度的限制，它是短暫的和有限的。長期記憶則可對應(yīng)為外部的向量數(shù)據(jù)存儲，Agent 可在查詢時引用，并可通過快速檢索進(jìn)行訪問。

還有一個非常關(guān)鍵的因素，大模型知識的更新。由于大模型是用海量的通用數(shù)據(jù)訓(xùn)練的，基礎(chǔ)的大模型可以理解為是一個及格的通才，什么話題都知道一些，但是存在胡言亂語和幻覺現(xiàn)象。尤其是在面向企業(yè)端的場景，一個及格的通才是無法使用的，需要利用企業(yè)的專屬數(shù)據(jù)進(jìn)行喂養(yǎng)和訓(xùn)練。這個時候，就可以通過RAG【檢索增強(qiáng)生成】技術(shù)，在基礎(chǔ)大模型的基礎(chǔ)上掛載企業(yè)專屬的知識庫，以向量數(shù)據(jù)庫的方式存儲，將Agent訓(xùn)練為一個優(yōu)秀的專才。

RAG技術(shù)在AI Agent的應(yīng)用中非常關(guān)鍵，大家可以提前標(biāo)記一下這個概念。在后續(xù)文章中，風(fēng)叔還將重點介紹RAG技術(shù)的原理和使用方法。

1.2.3 構(gòu)成三，工具Tooling

為AI Agent配備工具API，比如計算器、搜索工具、代碼執(zhí)行器、數(shù)據(jù)庫查詢等工具，AI Agent就可以和物理世界交互，來解決更加實際的問題。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

Agent使用工具的方式主要有以下幾種：

a. TALM & ToolFormer

TALM和ToolFormer都是對 LLM 進(jìn)行微調(diào)，以學(xué)習(xí)使用外部工具API。該數(shù)據(jù)集根據(jù)新增的 API 調(diào)用注釋是否能夠提高模型輸出的質(zhì)量而進(jìn)行擴(kuò)展。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

b.HuggingGPT

HuggingGPT =ChatGPT+HuggingFace，HuggingFace是大模型領(lǐng)域的Github，來自全球的開發(fā)人員、企業(yè)和機(jī)構(gòu)在huggingFace社區(qū)進(jìn)行模型的上傳、分享和部署。

從本質(zhì)上來說，HuggingGPT是一個使用ChatGPT作為任務(wù)規(guī)劃器的框架，ChatGPT 可根據(jù)模型的描述選擇 HuggingFace 平臺中可用的模型，并根據(jù)執(zhí)行結(jié)果總結(jié)響應(yīng)結(jié)果。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

c. API-Bank

它包含 53 種常用的 API 工具、完整的工具增強(qiáng)的 LLM 工作流程。API 的選擇相當(dāng)多樣化，包括搜索引擎、計算器、日歷查詢、智能家居控制、日程管理、健康數(shù)據(jù)管理、賬戶認(rèn)證工作流程等。由于 API 數(shù)量眾多，LLM 首先可以訪問 API 搜索引擎，找到要調(diào)用的 API，然后使用相應(yīng)的文檔進(jìn)行調(diào)用

d. Function Calling

是一種實現(xiàn)大型語言模型連接外部工具的機(jī)制。通過API調(diào)用LLM時，調(diào)用方可以描述函數(shù)，包括函數(shù)的功能描述、請求參數(shù)說明、響應(yīng)參數(shù)說明，讓LLM根據(jù)用戶的輸入，合適地選擇調(diào)用哪個函數(shù)，同時理解用戶的自然語言，并轉(zhuǎn)換為調(diào)用函數(shù)的請求參數(shù)。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

前面的內(nèi)容中，風(fēng)叔拋出了非常多較為晦澀的概念和專業(yè)名詞，大家先初步了解一下這些概念，風(fēng)叔會在后續(xù)文章中對這些概念和原理進(jìn)行詳細(xì)介紹。

規(guī)劃Planning、記憶Memory和工具Tooling，就是AI Agent系統(tǒng)最核心的三個模塊。接下來，我們再來看看AI Agent的分類。

1.3 AI Agent的分類

從去年開始，各類AI Agent層出不窮。面對形形色色的AI Agent，合理的分類有助于我們進(jìn)一步了解AI Agent的原理和模式。

我們可以從三個角度來給AI Agent進(jìn)行分類，分別是工作模式、決策方式和應(yīng)用場景。在本篇文章中，風(fēng)叔先介紹前兩種分類方式，在下一篇文章介紹”Where”的時候，再詳細(xì)介紹AI Agent的應(yīng)用場景。

1.3.1 按工作模式分類

從工作模式來看，AI智能體可以分為單Agent、多Agent和混合Agent。

單Agent：即通過單一的Agent來解決問題，不需要與其他Agent進(jìn)行交互。單Agent可以根據(jù)任務(wù)執(zhí)行不同的操作，如需求分析、項目讀取、代碼生成等。比如專門用于進(jìn)行市場分析調(diào)研的Agent就是單Agent系統(tǒng)，只能處理市場分析這個單一任務(wù)。

多Agent：這種模式側(cè)重于多個Agent之間的互動和信息共享，多個Agent協(xié)同工作，相互交流信息，共同完成更復(fù)雜的任務(wù)或目標(biāo)。多agent應(yīng)用場景在軟件行業(yè)開發(fā)、智能生產(chǎn)、企業(yè)管理等高度協(xié)同的工作中非常有幫助。比如有一家公司就創(chuàng)建了一個多Agent系統(tǒng)，由Agent來扮演產(chǎn)品經(jīng)理、UI設(shè)計師、研發(fā)工程師、測試人員、項目經(jīng)理等角色，甚至可以接一些實際的軟件開發(fā)任務(wù)。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

混合Agent：這種模式中，Agent系統(tǒng)和人類共同參與決策過程，交互合作完成任務(wù)，強(qiáng)調(diào)的是人機(jī)協(xié)作的重要性和互補(bǔ)性。智慧醫(yī)療、智慧城市等專業(yè)領(lǐng)域可以使用混合Agent來完成復(fù)雜的專業(yè)工作。比如醫(yī)生和AI Agent可以共同進(jìn)行病情診斷，AI Agent負(fù)責(zé)快速分析病人的醫(yī)療記錄、影像資料等，提供初步的診斷建議；而醫(yī)生則可以基于AI Agent的分析結(jié)果和自己的專業(yè)知識和經(jīng)驗，做出最終的診斷決定。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

1.3.2 按決策制定方式分類

簡單反射型Agent：基于“如果-那么”規(guī)則直接響應(yīng)當(dāng)前的環(huán)境狀態(tài)，不存儲任何歷史數(shù)據(jù)或狀態(tài)。這種Agent設(shè)計簡單，反應(yīng)迅速，但適用范圍有限。比如當(dāng)軟件系統(tǒng)發(fā)生告警時，就自動向系統(tǒng)維護(hù)人員打電話，就是一個簡單反射型Agent。

基于模型的反射型Agent：擁有環(huán)境的內(nèi)部模型，能夠基于對環(huán)境的理解和過去的經(jīng)驗做出更復(fù)雜的決策。它能夠適應(yīng)環(huán)境變化，處理更復(fù)雜的任務(wù)。比如Nest的智能溫控器，不僅能根據(jù)當(dāng)前溫度調(diào)節(jié)室內(nèi)氣溫，還能學(xué)習(xí)用戶的偏好，就是一個基于模型的反射型Agent。

基于目標(biāo)的Agent：這類Agent的決策方式，從根本上不同于前面描述的條件-動作規(guī)則，因為它涉及對未來的考慮。比如智能導(dǎo)航軟件，根據(jù)用戶的起點和目標(biāo)，結(jié)合交通擁堵狀況和用戶的偏好，輸出最佳導(dǎo)航路線。

基于效用的Agent：基于效用的Agent旨在最大化效用功能或價值，精心挑選具有最高預(yù)期效用的行動，以衡量結(jié)果的有利程度。比如同樣是導(dǎo)航到達(dá)目標(biāo)，有的用戶需要用時最短，有的用戶需要路費最少，那么基于不同的效用，系統(tǒng)就會給出不同的導(dǎo)航結(jié)果。

學(xué)習(xí)型Agent：這些Agent設(shè)計用于在未知環(huán)境中運行，從自己的經(jīng)歷中學(xué)習(xí)，并隨著時間的推移調(diào)整自己的行動。比如AlphaGo就是學(xué)習(xí)型Agent，從不斷的對弈中進(jìn)行策略調(diào)整。

基于邏輯的Agent：通?；谝幌盗羞壿嬕?guī)則，通過推理來解決問題，適合需要高度邏輯判斷的場景，例如法律咨詢聊天機(jī)器人。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

LLM大模型和這些Agent的關(guān)系就在于，LLM大模型為Agent的后續(xù)行動提供了輸入和推理。比如LLM大模型上面接了一個基于目標(biāo)的Agent，那么這個Agent就會從用戶的輸入中，提取用戶的目標(biāo)和要求，再結(jié)合上文提到的子任務(wù)分解、反思和完善等動作，逐步完成最終目標(biāo)。

二、5W1H分析框架之Why

2.1 為什么會產(chǎn)生AI Agent？

為什么會產(chǎn)生AI Agent（特指LLM Agent）？我們從兩個方面來回答這個問題，技術(shù)發(fā)展的局限性，以及人和AI的交互性。

從技術(shù)發(fā)展的局限性來考慮

在LLM大語言模型出現(xiàn)以前，一般通過規(guī)則和強(qiáng)化學(xué)習(xí)的方法來讓機(jī)器智能化的完成一些任務(wù)，但是這兩種方法各有弊端。

規(guī)則的方法是指把復(fù)雜的自然語言問題轉(zhuǎn)化為規(guī)則符號，往往需要行業(yè)專家的介入，缺乏容錯能力，一個小的錯誤就可能導(dǎo)致整個系統(tǒng)的失敗。

而強(qiáng)化學(xué)習(xí)一般是構(gòu)建策略網(wǎng)絡(luò)或獎勵模型，需要大量樣本進(jìn)行訓(xùn)練，但是收集數(shù)據(jù)往往成本很高，所以這種方法可行性不大，很難推廣開來。

LLM大語言模型出現(xiàn)之后，人們發(fā)現(xiàn)LLM大語言模型在邏輯推理、工具應(yīng)用、策略規(guī)劃、指令遵循等方面都有非常不錯的表現(xiàn)，工程師們開始意識到，將大語言模型作為Agent應(yīng)用的核心認(rèn)知系統(tǒng)，可以極大的提高Agent的規(guī)劃能力。

但是LLM大模型畢竟還無法像人類一樣，擁有更深度的規(guī)劃思考能力、運用各種工具與物理世界互動，以及擁有人類的長期記憶能力。

在這樣的背景下，出現(xiàn)了非常多的研究方向，來讓Agent逐漸逼近人類，比如前文提到的COT/TOT/GOT、ReAct、Reflexion等技術(shù)，提升Agent的Planning能力；比如通過RAG增強(qiáng)檢索生成技術(shù)，提升Agent的記憶能力；以及ToolFormer、Function Calling等技術(shù)，提升Agent的工具使用能力。

從人和AI互動的角度來考慮

從人和AI互動的角度，主要經(jīng)歷了三種模式。

最早出現(xiàn)的是Embedding模式，即人類完成大多數(shù)工作，AI只是作為某些單點能力，嵌入在人類完成工作的某些節(jié)點。比如很典型的SaaS+AI模式，像OCR、人臉識別、語義分析等能力，作為一些提升效率的點，嵌入在SaaS軟件里。大多數(shù)的工作，還是通過人工操作SaaS軟件完成的。

隨著大模型的出現(xiàn)，在部分場景下，人類和AI的協(xié)同進(jìn)化到了Copilot模式，即AI作為人類的堅實助手，隨時輔助人類的工作。比如Notion AI和微軟Copilot，人類在AI的幫助下進(jìn)行寫作，AI隨時可以進(jìn)行內(nèi)容提示、擴(kuò)充、修改。

而AI Agent模式，則是將人類與AI的協(xié)同進(jìn)化到了新的高度，人類只是提出任務(wù)和目標(biāo)，然后由AI自主完成大多數(shù)工作。所以從人和AI互動的角度來看，AI Agent也是AGI發(fā)展過程中的必經(jīng)之路。

大佬們都在關(guān)注的AI Agent，到底是什么？用5W1H分析框架拆解AI Agent（上篇）

? 由人人都是產(chǎn)品經(jīng)理提供

2.2 AI Agent有哪些優(yōu)勢和局限？

對于用戶來講，AI Agent的主要優(yōu)勢包括：

第一，以任務(wù)為導(dǎo)向。AI Agent脫離了傳統(tǒng)Chatbot那種閑聊的交互模式，能夠彌合語言理解與采取行動之間的鴻溝。直接基于用戶輸入中所體現(xiàn)出來的意圖，自動進(jìn)行后續(xù)的推理和行動，可以大幅提升工作效率。

第二，自然的交互方式。由于AI Agent本身以LLM大語言模型為底座，固有的語言理解和語言生成能力，確保了自然無縫的用戶交互。

第三，進(jìn)化的決策能力。AI Agent的決策能力依賴于背后的LLM大模型，雖然目前LLM大模型的決策能力還遠(yuǎn)遠(yuǎn)不如人類，但這項能力在持續(xù)不斷的進(jìn)化。

第四，靈活的適應(yīng)性。在RAG和Function Calling等技術(shù)的支撐下，AI Agent可以快速適應(yīng)各種不同的行業(yè)和應(yīng)用場景，并通過API調(diào)用和外部環(huán)境產(chǎn)生交互。

但是由于LLM大模型本身固有的局限，這種局限也同樣影響了AI Agent。

第一，可靠性不足。眾所周知，LLM大模型容易出現(xiàn)幻覺和不一致性，將多個步驟連起來會進(jìn)一步加劇可靠性問題，從而難以獲得用戶信任。舉個例子，假設(shè)每個步驟LLM的可靠性是95%，如果一個任務(wù)需要被分解到5步以上，那么最終的可靠性將不到80%，這會大大限制AI Agent在一些Critical場景下的應(yīng)用。

第二，法律問題。對于企業(yè)對外輸出的AI Agent，企業(yè)可能要對其產(chǎn)生的錯誤負(fù)責(zé)。比如，最近一位客戶因為被加拿大航空公司的聊天機(jī)器人誤導(dǎo)而延誤航班，最終由加拿大航空予以賠償。

第三，性能和成本。GPT-4、Gemini-1.5在推理和function calling的表現(xiàn)不錯，但仍然較慢且成本高，特別是需要進(jìn)行循環(huán)調(diào)用和自動重試時。

對于AI Agent可靠性的問題，其中一個解決方案是Agentic Workflow，即借助人工經(jīng)驗進(jìn)行任務(wù)分解、配置執(zhí)行任務(wù)。AI Agent在整個workflow中，更多起到意圖識別、檢索、歸納、分類的作用。

比如通過workflow創(chuàng)建一個輸出財務(wù)分析報表的AI Agent，由人類告訴AI Agent，當(dāng)接收到分析某家公司的財務(wù)報表時，先去某財務(wù)網(wǎng)站搜索該公司的財務(wù)報表，然后下載報表數(shù)據(jù)進(jìn)行本地化存儲，再提取特定字段的數(shù)據(jù)進(jìn)行計算和同比，最后再以自然語言的方式輸出財務(wù)分析報告。

對于Agentic Workflow，后面風(fēng)叔將專門用一篇文章進(jìn)行介紹。

2.3 企業(yè)和個人為什么要關(guān)注AI Agent？

企業(yè)用戶通常面臨更加復(fù)雜的業(yè)務(wù)需求，有更明確的業(yè)務(wù)場景、業(yè)務(wù)邏輯以及更多行業(yè)數(shù)據(jù)和行業(yè)知識的積累，非常適配 Agent 自主性、決策與執(zhí)行、工具使用等特點，這讓企業(yè)端領(lǐng)域成為 Agent 施展能力的絕佳舞臺。

同時，AI Agent可以用工程化的思想對抗個體工作的不確定性，過往的SOP、PDCA、OKR等管理方法可以與AI Agent進(jìn)行適配，完成管理工作的科學(xué)升級。

因此，企業(yè)需要關(guān)注AI Agent，結(jié)合企業(yè)所在的行業(yè)特點以及自身的業(yè)務(wù)屬性，通過AI Agent提升業(yè)務(wù)效率。在企業(yè)的供應(yīng)鏈、產(chǎn)品研發(fā)、市場營銷、內(nèi)部辦公等環(huán)節(jié)，AI Agent都有非常多的應(yīng)用場景。

比如在供應(yīng)鏈環(huán)節(jié)，AI Agent可以應(yīng)用在智能配補(bǔ)貨、原料自動下單、庫存優(yōu)化、供應(yīng)商協(xié)同、合同自動審查等場景。在產(chǎn)品研發(fā)環(huán)節(jié)，AI Agent可以應(yīng)用在產(chǎn)品成分分析、新品研發(fā)建議、產(chǎn)品設(shè)計出圖等場景。在市場營銷環(huán)節(jié)，AI Agent可以用于智能客服、精準(zhǔn)推薦、營銷創(chuàng)意制作、廣告智能投放等場景。

我們再來看AI Agent對于個人的影響。雖然到目前為止，面向C端用戶，市場上還沒有出現(xiàn)killer級的C端應(yīng)用，包括 OpenAI 的 GPTs，其實只是用于特定知識庫或數(shù)據(jù)的 Chatbot。但是從AI的長期發(fā)展趨勢來看，AI Agent一定會在越來越多的場景進(jìn)行滲透。

同時，個人作為企業(yè)端的工作者，AIAgent對個人在工作效率上帶來的提升，也是顯而易見的。利用AI Agent武裝自己，讓工作和學(xué)習(xí)效率更上一級臺階。

對于個人來講，未來可能只有兩種人，驅(qū)動Agent的人，和被Agent驅(qū)動的人。

總結(jié)

本篇文章是使用5W1H分析框架拆解AI Agent的上篇，圍繞What和Why，詳細(xì)闡述了AI Agent的概念、構(gòu)成、分類、產(chǎn)生原因、優(yōu)勢劣勢、以及對企業(yè)和個人的影響。

在下一篇文章中，風(fēng)叔將圍繞When、Who和Where，詳細(xì)介紹AI Agent的發(fā)展歷程、行業(yè)玩家和具體應(yīng)用場景。

作者：風(fēng)叔，微信公眾號：風(fēng)叔云

本文由@風(fēng)叔原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，

題圖來自Unsplash，基于CC0協(xié)議。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

Agent的爭奪戰(zhàn)