淺談AI Agent——大模型時(shí)代重要落地方向

taotao_2016 2023-12-30

展開(kāi)全文

本文封面是《我們從何處來(lái)？我們是誰(shuí)？我們向何處去？》（Where Do We Come From？ What Are We？ Where Are We Going？）是法國(guó)畫家保羅·高更于1897年創(chuàng)作的布面油畫，現(xiàn)藏于美國(guó)波士頓美術(shù)館。

1. 智能涌現(xiàn)- Where Do We Come From？

過(guò)去基于深度學(xué)習(xí)框架可讓agent（人工智能體））學(xué)到技能，但agent本身并沒(méi)有真正理解問(wèn)題和技能，如AlphaGo，只能用于特定領(lǐng)域。

現(xiàn)在有人要求ChatGPT扮演Linux終端來(lái)運(yùn)行代碼時(shí)，發(fā)現(xiàn)ChatGPT真的可以搞定這件事。是人們模型的訓(xùn)練階段教了ChatGPT了么? 并沒(méi)有，它是根據(jù)預(yù)訓(xùn)練的結(jié)果預(yù)測(cè)了下一個(gè)單詞，相當(dāng)于無(wú)師自通。

2. 發(fā)展現(xiàn)狀- What Are We？

2.1 所有應(yīng)用都值得被大模型重構(gòu)一遍[1]

以自動(dòng)駕駛不同階段，來(lái)對(duì)比AI發(fā)展階段。我們知道，至少要L4階段，自動(dòng)駕駛才會(huì)被真正批準(zhǔn)上路，而目前絕大多數(shù)軟件產(chǎn)品沒(méi)有任何顯性的AI輔助，都只是處于L1甚至L0初級(jí)階段的產(chǎn)品。但是大模型成功地壓縮了人類對(duì)于整個(gè)世界的認(rèn)知，讓我們看到了實(shí)現(xiàn)通用人工智能的路徑。

等級(jí)	Name	名稱	自動(dòng)化程度	含義	示例	應(yīng)用場(chǎng)景
L1	Tool	工具	無(wú)	人類完成所有工作,沒(méi)有任何顯性的AI輔助	目前絕大多數(shù)軟件產(chǎn)品
L2	Chatbot	客服	少量自動(dòng)化	人類完成絕大部分工作,類似向AI詢問(wèn)意見(jiàn),了解信息, AI提供信息和建議但不直接處理工作	初代ChatGPT和Chatbot	智能客服、虛擬導(dǎo)游等
L3	Copilot	助理	部分自動(dòng)化	人類和AI進(jìn)行協(xié)作,工作量相當(dāng)。 Al根據(jù)人類prompt完成工作初稿, 人類進(jìn)行目標(biāo)設(shè)定,修改調(diào)整,最后確認(rèn)	Copilot、Jasper	代碼補(bǔ)全輔助編程等
L4	Agent	自動(dòng)化代理	條件自動(dòng)化	AI完成絕大部分工作, 人類負(fù)責(zé)設(shè)定目標(biāo)、提供資源和監(jiān)督結(jié)果, AI完成任務(wù)拆分,工具選擇,進(jìn)度控制, 實(shí)現(xiàn)目標(biāo)后自主結(jié)束工作	AutoGPT
L5	Species	智能體	完全自動(dòng)化	完全無(wú)需人類監(jiān)督, AI自主拆解目標(biāo),尋找資源,選擇并使用工具,完成全部工作人類只需給出目標(biāo)	類似馮諾依曼機(jī)器人
圖表1 AI發(fā)展階段對(duì)比自動(dòng)駕駛不同階段圖表2 中國(guó)自動(dòng)駕駛發(fā)展情況

2.2 人類與AI協(xié)同的三種模式[2]

圖表3 人類與AI協(xié)同的三種模式

2.3 生成式AI是近十年來(lái)產(chǎn)生影響最為廣泛的技術(shù)[3]

Gartner 發(fā)布了題為“Hype Cycle for Artificial Intelligence, 2023”的報(bào)告，公布了 2023 年 AI 技術(shù)成熟度曲線，對(duì) AI 相關(guān)技術(shù)進(jìn)行了系統(tǒng)的分析及發(fā)展預(yù)測(cè)。本次報(bào)告中，Gartner 對(duì)生成式 AI 做出了極高的評(píng)價(jià)，認(rèn)為生成式AI 是近十年來(lái)產(chǎn)生影響最為廣泛的技術(shù)，沒(méi)有之一。
其中，「生成式 AI」和「基礎(chǔ)模型」正處于期望膨脹期的巔峰。

高德納技術(shù)成熟度曲線是個(gè)通用模型，是個(gè)可以套用很多技術(shù)的萬(wàn)能模型，具有學(xué)習(xí)價(jià)值。該模型認(rèn)為一項(xiàng)技術(shù)的發(fā)展可以分為5個(gè)階段，并且對(duì)每個(gè)階段的邊界和特征進(jìn)行了明確的定義。

圖表4 2023 AI 技術(shù)成熟度曲線

3. 未來(lái)前瞻- Where Are We Going？

大模型改變?nèi)斯ぶ悄鼙澈?，底層的IT技術(shù)棧也發(fā)生了根本變化，即從芯片層（CPU為主）、操作系統(tǒng)層、應(yīng)用層的三層架構(gòu)，發(fā)展成為了四層架構(gòu)：芯片層（GPU為主）+框架層+模型層+應(yīng)用層。

3.1 何為AI-Agent

大模型應(yīng)用的盡頭是AI Agent，AI Agent是大模型重要落地方向[6]

根據(jù)前文等級(jí)區(qū)分，Level 4級(jí)別的Agent實(shí)現(xiàn)的是全自動(dòng)化的決策、運(yùn)行和反饋，它呈現(xiàn)出的更多是一種超級(jí)個(gè)體更多是一種“擬人化”的形式。它可被定義為“分身”、“員工”和任意“個(gè)體”。

OpenAI的一篇博文中， Lilian認(rèn)為，在基于LLM的自動(dòng)agent體系里, LLM就是作為agent的大腦，其他幾個(gè)能力作為補(bǔ)充：計(jì)劃、記憶、工具使用，而這三個(gè)模塊最終驅(qū)動(dòng)智能體的決策和行動(dòng)。

AI Agent 智能體= LLM +規(guī)劃能力+記憶能力+工具使用

·規(guī)劃能力

?子目標(biāo)與拆解: Agent大腦把大的任務(wù)拆解為更小的，可管理的子任務(wù)，這對(duì)有效的、可控的處理好大的復(fù)雜的任務(wù)效果很好.

?反省和改良: Agent能基于過(guò)去的動(dòng)作做自我批評(píng)和自我反省，從過(guò)去的問(wèn)題中學(xué)習(xí)從而改良未來(lái)的動(dòng)作，從而能夠改善最終的結(jié)果.

·記憶能力

?短期記憶: 我會(huì)把所有基于context的學(xué)習(xí)能力 (詳細(xì)請(qǐng)看 Prompt Engineering) ，其實(shí)就是prompt內(nèi)的學(xué)習(xí)能力作為短期記憶.

?長(zhǎng)期記憶: Agent能夠保留和無(wú)限召回的歷史信息能力，這通常通過(guò)外部的向量數(shù)據(jù)庫(kù)和快速取數(shù)能力組合實(shí)現(xiàn).

·工具使用

?Agent能學(xué)習(xí)到在模型內(nèi)部知識(shí)不夠時(shí)（比如在pre-train時(shí)不存在，且之后沒(méi)法改變的模型weights）去調(diào)用外部API，比如獲取實(shí)時(shí)的信息，處理代碼的能力，訪問(wèn)專有的信息知識(shí)庫(kù)等等.

3.1.3 Al Agent 智能體總體架構(gòu)剖析

圖表5 大模型驅(qū)動(dòng)的AI Agent的基本框架

圖表6 OpenAI Safety團(tuán)隊(duì)負(fù)責(zé)人

3.1.3 規(guī)劃能力

·CoT（Continual Training）是一種改進(jìn)的提示策略，它強(qiáng)調(diào)在訓(xùn)練過(guò)程中持續(xù)提供新的數(shù)據(jù)和信息，以幫助智能體不斷學(xué)習(xí)和改進(jìn)。這種策略對(duì)于提高AI Agent的規(guī)劃能力非常有幫助，因?yàn)樗梢蕴峁└嗟挠?xùn)練數(shù)據(jù)和更豐富的經(jīng)驗(yàn)，幫助智能體更好地理解和應(yīng)對(duì)各種復(fù)雜的情況和任務(wù)。

3.1.1 記憶能力

簡(jiǎn)單來(lái)說(shuō)，檢索模型擅長(zhǎng)'找'信息，生成模型擅長(zhǎng)'創(chuàng)造'內(nèi)容

·RAG（檢索增強(qiáng)生成，Retrieval-Augmented Generation）

圖7 RAG的執(zhí)行流程圖

·向量數(shù)據(jù)庫(kù)(Vector Database)：向量數(shù)據(jù)庫(kù)是指專門用于存儲(chǔ)和管理向量的數(shù)據(jù)庫(kù)。在AI Agent的規(guī)劃過(guò)程中，大量的數(shù)據(jù)需要以向量的形式進(jìn)行存儲(chǔ)和檢索。向量數(shù)據(jù)庫(kù)可以提供高效、快速的向量存儲(chǔ)和檢索功能，為AI Agent的規(guī)劃和決策提供強(qiáng)大的支持。同時(shí)，向量數(shù)據(jù)庫(kù)還可以支持各種數(shù)據(jù)分析和挖掘功能，幫助智能體更好地學(xué)習(xí)和改進(jìn)。

·Embedding模型的應(yīng)用：Embedding 是指將數(shù)據(jù)或特征映射到一個(gè)低維向量空間中的過(guò)程。LangChain可以利用Embedding模型將文本轉(zhuǎn)換為向量，然后將其存儲(chǔ)在向量數(shù)據(jù)庫(kù)中。這樣，LangChain 可以根據(jù)文本的向量表示進(jìn)行相似性比較和搜索，從而實(shí)現(xiàn)對(duì)文本的高效處理。

·存-> 向量數(shù)據(jù)庫(kù)的核心思想是將文本轉(zhuǎn)換成向量（Embedding）,然后將向量存儲(chǔ)在數(shù)據(jù)庫(kù)中。

·取-> 將用戶輸入的問(wèn)題轉(zhuǎn)成向量，然后在數(shù)據(jù)庫(kù)中檢索最相似的向量，以及向量對(duì)應(yīng)的文本（記憶），返回給LLM，生成回答。

圖表8 基于LangChain下的RAG交互過(guò)程

3.1.1 工具使用

巧婦難為無(wú)米之炊，僅靠 LLM 自身能做的事情還是比較有限，比如：LLM可以幫忙寫代碼，但是無(wú)法執(zhí)行代碼，因此要讓LLM能做更多事情，就需要借它點(diǎn)工具。一些工具類型：

·ChatGPT Plugins

·OpenAI API function calling

·Code Interpreter

·HuggingGPT

3.2 大模型增強(qiáng)vs. 大模型原生

3.2.3 LLM-Empowered

指將LLM技術(shù)應(yīng)用于現(xiàn)有系統(tǒng)或工具以提升其功能和性能；
這種方法通常涉及到對(duì)現(xiàn)有系統(tǒng)或工具進(jìn)行改進(jìn)和優(yōu)化，以適應(yīng)大型語(yǔ)言模型的應(yīng)用。LLM-Empowered的優(yōu)勢(shì)在于它可以通過(guò)利用大型語(yǔ)言模型的能力來(lái)提高現(xiàn)有系統(tǒng)的性能和效率。

3.2.3 LLM-Native

指從設(shè)計(jì)之初就將LLM作為核心功能考慮的系統(tǒng)或應(yīng)用，是完全建立在大模型技術(shù)特點(diǎn)上的全新應(yīng)用形態(tài);
這種方法需要對(duì)系統(tǒng)或工具進(jìn)行重新設(shè)計(jì)和開(kāi)發(fā)，以便能夠充分利用大型語(yǔ)言模型的能力。LLM-Native的優(yōu)勢(shì)在于它可以更好地利用大型語(yǔ)言模型的能力，并且可以更好地適應(yīng)特定的應(yīng)用場(chǎng)景和需求。

3.3 GPTs vs. AI-Agent

Chat (GPTs)向左, AI-Agent 向右

GPTs是AI-Agent初級(jí)形態(tài)

3.3.1 公開(kāi)的GPTs

·公開(kāi)的

·GPTs類比appstore的應(yīng)用app

·GPTs store生態(tài)未來(lái)將造就大量淘金者

·GPTs受眾是公域的c端用戶

·GPTs主要目標(biāo)，面向業(yè)務(wù)人員, 最終目的替代兼職人員+提升效率

·技術(shù)棧有一定限制：受制于OPEN和GPT4

·技術(shù)和安全挑戰(zhàn)：幾句話Prompt就能套走GPTs的數(shù)據(jù)庫(kù)

·未來(lái)自由組織形態(tài): 人+GPTs

3.3.2 定制AI-Agent

·定制的

·AI Agent是copilot的下一代產(chǎn)物

·Agent是大模型時(shí)代的落地代言人

·Agent彌補(bǔ)大模型應(yīng)用最后一公里

·Agent主要目標(biāo)，面向開(kāi)發(fā)人員，最終目的是替代人

·技術(shù)和安全挑戰(zhàn)：企業(yè)數(shù)據(jù)不可能交付給別人的大模型

·未來(lái)嚴(yán)肅組織形態(tài): 人+AI Agent

3.4 單智能體vs. 多智能體

AI-Agent大致會(huì)分兩個(gè)方向: Agents Systems(單智能體)和Multi-Agents(多智能體)

在多智能體系統(tǒng)中，多個(gè)智能體需要協(xié)同工作以實(shí)現(xiàn)共同的目標(biāo)。多智能體協(xié)同規(guī)劃方法需要考慮多個(gè)智能體之間的交互和合作，以制定最佳的行動(dòng)方案。

3.4.3 多智能體：未來(lái)200人的公司只需5個(gè)人就能運(yùn)作

未來(lái)公司架構(gòu)是不限于工程師，項(xiàng)目經(jīng)理；包括CEO、COO、CFO、CTO在內(nèi)都能被AI Agent所替代。
軟件公司或者變成這樣的架構(gòu)運(yùn)作，或者迫于成本壓力被這樣架構(gòu)的公司所擊敗。
畢竟未來(lái)如果讓軟件工程師去開(kāi)發(fā)，至少需要幾萬(wàn)塊錢的人工費(fèi)，時(shí)間兩周起步。但使用Agent開(kāi)發(fā)，價(jià)格只需要幾元到幾十元，最快幾分鐘就能跑通一個(gè)應(yīng)用。

下圖，每一個(gè)模塊就是一個(gè)AI Agent。

圖表7 未來(lái)內(nèi)容生產(chǎn)的公司架構(gòu)

4. 不必悲觀

4.1 大模型存在以下問(wèn)題

·幻覺(jué)：生成看似正確實(shí)際上非常錯(cuò)誤的內(nèi)容誤導(dǎo)用戶；

如今沒(méi)有一種模型不會(huì)產(chǎn)生幻覺(jué), 即大模型分不清事實(shí)和虛構(gòu)，捏造和相信一些不存在的事實(shí)。
基本上，在與模型對(duì)答6次以上就會(huì)發(fā)生. 所以想要ChatBot產(chǎn)生機(jī)器幻覺(jué), 可能需要重開(kāi)客戶端.
這對(duì)于工業(yè)控制場(chǎng)景來(lái)說(shuō)是致命的。
但是通過(guò)大模型來(lái)輸出代碼, 再由代碼來(lái)控制可能是一種思路, 畢竟代碼是

·偏見(jiàn)：受到有問(wèn)題的訓(xùn)練數(shù)據(jù)影響，可能會(huì)生成偏見(jiàn)、歧視性或不當(dāng)?shù)难哉摚?/p>

·黑箱：生成決策過(guò)程不透明，難以解釋；

·邏輯：本質(zhì)上是概率預(yù)測(cè)，還不能非常準(zhǔn)確處理邏輯問(wèn)題；

·過(guò)時(shí)：特定數(shù)據(jù)集的預(yù)訓(xùn)練，使其難以理解和回應(yīng)在數(shù)據(jù)集創(chuàng)建后出現(xiàn)的新概念；

·成本：訓(xùn)練大模型需要消耗極其巨大的計(jì)算資源，一般機(jī)構(gòu)無(wú)法負(fù)擔(dān)這樣的花費(fèi)；

4.2 人類與智能體的博弈競(jìng)爭(zhēng)關(guān)系

在未來(lái)工作的可能危機(jī)應(yīng)該是人類與多智能體的博弈。

為什么要與多智能體博弈呢?這與智能體的前沿研究有關(guān),因?yàn)樗麄冊(cè)噲D模擬人類的行為，甚至替代人類。

1.第一個(gè)競(jìng)爭(zhēng)力將取決于你對(duì)模型性能、選擇適當(dāng)模型和工具以及執(zhí)行步驟的理解；

AI時(shí)代的職場(chǎng)競(jìng)爭(zhēng)力: 模型、策略與流程；更少的流程意味著更少的算力成本。

2.第二個(gè)核心競(jìng)爭(zhēng)力就是智能體的博弈中找到最好的合作方式，人類的自我反思能力有限，在這種多智能體的博弈中，它們將快速找到更好的解決方案

3.大模型的工作催生了新的工作需求

關(guān)閉了一扇門，打開(kāi)一扇窗

除了等待基座模型自身迭代之外，借助外部力量（向量存儲(chǔ)、檢索、代碼等）是重要方法，完整的AGENT框架應(yīng)該具備這些能力。這又誕生了新的業(yè)務(wù)需求，如提示詞工程、向量數(shù)據(jù)庫(kù)工程等

4.4 程序員與LLM 優(yōu)劣勢(shì)對(duì)比

按照目前觀察，人類更擅長(zhǎng)抽象層次高的任務(wù)，而LLM擅長(zhǎng)顆粒度小，確定性強(qiáng)的任務(wù)。

圖表8 程序員與 LLM 優(yōu)劣勢(shì)對(duì)比

按照目前觀察，橙色部分是LLM可以部分替代，灰色部分將在不久將來(lái)逐步被LLM所替代。

圖表9 程序員與 LLM 優(yōu)劣勢(shì)對(duì)比

4.5 LLM來(lái)做工業(yè)控制的思路之提示詞工程[5]

LLM依然需要采集端和控制端實(shí)現(xiàn)對(duì)環(huán)境的理解和對(duì)系統(tǒng)的控制。

·獲取系統(tǒng)的狀態(tài)

·將狀態(tài)（數(shù)值）轉(zhuǎn)為自然語(yǔ)言便于LLM理解

·獲取歷史狀態(tài)

·對(duì)狀態(tài)描述進(jìn)行embedding，或者向量表示用于檢索或聚類

·通過(guò)KNN檢索相似狀態(tài)的一些樣本

·通過(guò)聚類找出一些靠近不同類的“具有代表性”的樣本

·結(jié)合前面各種信息得到最終的prompt，喂給LLM得到輸出，然后作用到被控系統(tǒng)

圖表10 LLM來(lái)做工業(yè)控制的思路

5. 相關(guān)鏈接

1.《大模型改變世界》
—— 2023中關(guān)村論壇演講，李彥宏，2023年05月26日

2.《LLM Powered Autonomous Agents》《LLM驅(qū)動(dòng)的自主代理》
—— OpenAI負(fù)責(zé)安全領(lǐng)域的科學(xué)家，Lilian Weng，2023年6月23日

3.《2023 AI 技術(shù)成熟度曲線》
—— 全球著名咨詢調(diào)查機(jī)構(gòu)，Gartner，2023年7月

4.《AI is about to completely change how you use computers》
—— 蓋茨個(gè)人網(wǎng)站，比爾·蓋茨，2023年11月9日

5.《PRE-TRAINED LARGE LANGUAGE MODELS FOR INDUSTRIAL CONTROL》《工業(yè)控制中預(yù)先訓(xùn)練的大型語(yǔ)言模型》
—— 微軟亞洲研究院，

6.“如今AI智能體才是未來(lái)最前沿的方向”“相比大模型訓(xùn)練，OpenAI內(nèi)部目前更關(guān)注Agent領(lǐng)域”
—— OpenAI科學(xué)家Karpathy

7.《多智能體博弈、學(xué)習(xí)與控制》
—— 自動(dòng)化學(xué)報(bào)，王龍，黃鋒，北京大學(xué)人工智能研究院，2023年3月

8.《純干貨全面解讀AI框架RAG》
——

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： taotao_2016 > 《AI》

舉報(bào)/認(rèn)領(lǐng)