Agent 誕生短短一年,已成為科技巨頭與創(chuàng)業(yè)公司多方角逐的兵家必爭之地。而市場上的大多數(shù) Agent,似乎并不嚴格符合商業(yè)界對于 Agent 的期待。包括 OpenAI 的 GPTs,其實只是用于特定知識庫或數(shù)據(jù)的 Chatbot。這些基于場景信息、用于數(shù)據(jù)分析、代碼糾錯的智能體,不過是一種輕量化的個人助手而已。除了大家一直關(guān)注的軟色情、假官方、刷單橫行等安全問題之外,更因缺乏必要的用戶群需求和場景的匯聚深入,使得To C領(lǐng)域并未出現(xiàn)顛覆式的殺手級應(yīng)用,很多 GPTs 淪為了大眾淺嘗輒止的“玩具”。同時,在程序聯(lián)動和自動化工作流方面,GPTs 也有很多提升的空間。在當(dāng)下大模型的早期,究竟什么樣的 Agent 才是商業(yè)化真正需要的。什么樣的場景下,Agent 才能發(fā)揮其最大的價值?當(dāng)我們把目光從To C轉(zhuǎn)向To B,似乎有了一個更有前景的答案。01.To B:Agent真正的戰(zhàn)場 2024年紅杉資本的人工智能峰會上,吳恩達發(fā)表了一場關(guān)于 Agent 的演講,他提出了 Agent 的四種主要能力——反思(Reflection)、使用工具(Tool use)、規(guī)劃(Panning)以及多智能體協(xié)同(Multi-agent collaboration),并強調(diào)了AI Agent 工作流的重要性,預(yù)測它將成為未來的重要趨勢。企業(yè)家兼平臺經(jīng)濟研究者Sangeet Paul Choudary也在今年3月發(fā)文提到,Agent 創(chuàng)造了一個重新整合場景的可能性,使得垂直領(lǐng)域的人工智能玩家能夠通過跨多個工作流程進行協(xié)調(diào)來實現(xiàn)水平發(fā)展,這將重塑B2B價值鏈。相較于零散個人用戶,企業(yè)用戶通常面臨更加復(fù)雜的業(yè)務(wù)需求,有更明確的業(yè)務(wù)場景、業(yè)務(wù)邏輯以及更多行業(yè)數(shù)據(jù)及其行業(yè)知識的積累,非常適配 Agent 自主性、感知與理解環(huán)境、決策與執(zhí)行、交互、工具使用等特點,這讓To B領(lǐng)域成為 Agent 更可施展的絕佳舞臺。我們曾在《誰將成為ToB AI應(yīng)用的“APP Store” ?》中提出,移動互聯(lián)網(wǎng)時代,App Store 堪稱史上最強大的生態(tài)平臺;而大模型時代,同樣需要這樣生命力強大的生態(tài)平臺,讓商業(yè)閉環(huán)、讓產(chǎn)業(yè)加速。也就是說,我們需要一個“To B領(lǐng)域的 Agent Store”,為企業(yè)賦能,降本增效。那么什么樣的公司才能做好這個「Agent Store」呢?吳恩達和 Sangeet 給一個近乎標準的答案——能介入企業(yè)客戶「工作流」的公司,以及有「垂直行業(yè)」數(shù)據(jù)積累的公司,最好還要有自己的大模型方便適配和賦能,LLM 是 Agent 的靠山。以釘釘、飛書、企業(yè)微信等為代表的協(xié)同辦公平臺,不僅本身就是「PaaS+SaaS」的結(jié)合體,具備良好的API接口和插件體系,可通過即時通訊、視頻會議、日程安排、任務(wù)管理、協(xié)作文檔等不同形態(tài)的產(chǎn)品牢牢內(nèi)嵌入企業(yè)的工作流中;更是通過長年的耕耘,積累了多個行業(yè)和賽道的企業(yè)數(shù)據(jù)資產(chǎn)。既有應(yīng)用場景、又有行業(yè)數(shù)據(jù),還有自家大模型,簡直就是「Agent Store」的天然生長平臺。 那么,在走入 Agent 的 To B 戰(zhàn)場之前,我們先來看看 Agent 誕生至今這一年,進化到哪里了?02.從Copilot到Agent,進擊的AI助理 Agent 發(fā)展到今天,經(jīng)歷了一個「從 Copilot 到 Agent」的過程。過去一年,背靠大模型的 Agent 領(lǐng)域發(fā)展迅速,雖然離真正的自主智能還有不小距離,但 Agent 在工業(yè)界的爆發(fā)趨勢已經(jīng)相當(dāng)明顯,圍繞 Agent 生態(tài)建設(shè)的平臺也已初具規(guī)模,吸引了各行各業(yè)的開發(fā)者。我們看到 Agent 從早期的 Copilot (副駕駛)模式,逐步演進為具備更多自主智能的 Agent(智能體、主駕駛)形態(tài)。Copilot 副駕駛是低級的助理, Agent 則是高級代理,其“高級”在 Agent 已是自主的AI智能體。即 Copilot 是以人為主,AI輔助,而 Agent 是AI為主,人為監(jiān)督。如果以自動駕駛的等級做比擬,L2級別的輔助駕駛屬于 Copilot,L4級別的主駕駛則屬于 Agent,而 L3處于從 Copilot 副駕駛向 Agent 主駕駛的過渡階段。從 Copilot 向 Agent 的進化過程中,背后的大模型有幾個關(guān)鍵進展在賦能 Agent:1. RAG (Retrieval-Augmented Generation)的應(yīng)用,讓 Agent 能夠利用外部知識和時效信息來補充自身的不足;2. 隨著大模型長上下文的飛速進展, Agent 處理復(fù)雜場景和多輪對話的能力有較大的提升。這項進步突破了此前Agent 的記憶能力不足的瓶頸,現(xiàn)在的 Agent 已經(jīng)可以在長上下文中做推理,復(fù)雜的流程邏輯及其條件分叉可以直接在窗口里描述; 3. 通過與越來越多的外部工具對接,如插件、APIs 等。有了各種工具加持,智能助手開始加速從副駕駛向真正的智能體進化;4. 自主規(guī)劃、環(huán)境交互、錯誤反思等 Agent 獨有的高階能力,雖然還處于探索階段,最近也取得了不俗的進步,尤其表現(xiàn)在「Agent 平臺」的建立和推進上。Agent 平臺為開發(fā)者提供了一個自然語言 Prompt Engineering 的開發(fā)環(huán)境,通過上下文窗口的人機對話來迭代優(yōu)化 Agent。開發(fā)者可以由此“調(diào)教”出針對特定任務(wù)的 Agent,定型后通過平臺發(fā)布,從而幫助形成 Agent 生態(tài),GPTs和 GPT Store 的發(fā)布就是一個典型的例子。從 Copilot 到 Agent,最大的區(qū)別在于「自主規(guī)劃」和「環(huán)境交互」的能力。Copilot 在幫助用戶的同時,處處離不開人的提示;而大模型賦能的Agent對其目標任務(wù)具有自主記憶、推理、規(guī)劃和執(zhí)行的全自動能力,原則上只需要用戶的起始指令和結(jié)果的反饋,過程中并不需要人的介入。如下圖所示,Agent 是模型的自主行為,“無人”操作;人與外掛工具的介入是作為環(huán)境與 Agent 交互的。具體來說,從當(dāng)前的 Agent 主要實現(xiàn)方式來看,「自主規(guī)劃」體現(xiàn)在開發(fā)者打造 Agent 的過程與傳統(tǒng)軟件工程不同:傳統(tǒng)軟件工程需要通過機器可執(zhí)行的具體算法用編程語言實現(xiàn),然而在打造 Agent 的過程中,開發(fā)者不再需要給出具體算法,不需要用計算機語言,甚至偽代碼(pseudo code)都不用,只需要用自然語言定義任務(wù)(輸入和輸出),就可以開啟 Agent 的自主規(guī)劃來執(zhí)行任務(wù),打造agent的初版。而「環(huán)境交互」能力則體現(xiàn)在,從 Agent 初版到能上架平臺的“產(chǎn)品”之間,Agent 在樣本數(shù)據(jù)輸入的驅(qū)動下,會有兩種輸出結(jié)果:一是錯誤信息,這表明Agent自主規(guī)劃的路徑有問題,類似傳統(tǒng)編程的句法錯誤;二是輸出結(jié)果不如人意,這就如同傳統(tǒng)編程中的邏輯錯,這時候開發(fā)者可以添加具體反饋,說明樣本輸入所對應(yīng)的期望輸出是什么。這兩類信息都可以在開發(fā)平臺上直接回饋給Agent;作為Agent與環(huán)境的交互,Agent 會對環(huán)境反饋的錯誤進行“反思”,在下一輪迭代中試圖修正;如此循環(huán),一個能用的Agent就制作完成,可以作為產(chǎn)品上架平臺。這是 Agent 與環(huán)境交互的“內(nèi)迭代”。而Agent發(fā)布后,在用戶實際使用過程中的環(huán)境反饋,則構(gòu)成了Agent與環(huán)境交互的“外迭代”?!巴獾迸c“內(nèi)迭代”一樣,原則上可以直接饋送給 Agent,讓 Agent 自我提升,與用戶偏好對齊,迭代新的上線版本。外迭代的流程化標志著環(huán)境數(shù)據(jù)飛輪的建立。從技術(shù)的進化路徑來看,我們見證了 OpenAI 從 Plugins 插件功能的開放到 GPTs 平臺的生態(tài)建設(shè),以及微軟從 GitHub Copilot 到 Microsoft 365 Copilot 的跨越。業(yè)界傳統(tǒng) Pipeline 的過程性應(yīng)用開發(fā),開始借助大模型賦能的新平臺向 Agent 這種端到端的開發(fā)范式演進。從產(chǎn)品形態(tài)的進化路徑來看,從單一功能的 coding 助手(如 GitHub Co-pilot),發(fā)展到 AutoGPT 這樣的 Agent 平臺,再到 MetaGPT、AutoGen 等多Agent框架的發(fā)布,還有OpenAI的Agent開發(fā)框架Assistant API的發(fā)布,Agent的開發(fā)工具和平臺越來越簡便,Agent的能力也隨之增強。而在國內(nèi)的眾多平臺,尤其是協(xié)同辦公平臺中,我們發(fā)現(xiàn)在技術(shù)路徑與產(chǎn)品形態(tài)的進化上,釘釘與大模型及其Agent 這一年的發(fā)展趨勢幾乎步步吻合,且將 Agent 技術(shù)與企業(yè)實際場景相結(jié)合,以最快的速度建立了AI助理的開發(fā)平臺和生態(tài)。這一年中,釘釘在業(yè)內(nèi)率先用大模型將自身產(chǎn)品改造了一番,20條產(chǎn)品線都已經(jīng)被AI化,智能問答、問數(shù)在企業(yè)獲得了較好的應(yīng)用;再者,釘釘背靠的自家大模型通義千問也在快速演進,比如長文本、多模態(tài)能力,為 Agent 的進化夯實了模型基礎(chǔ);同時,依托釘釘本身作為協(xié)同平臺的優(yōu)勢,以及工作流、AI PaaS等大量平臺工程化的能力,其 Agent 逐步實現(xiàn)了與業(yè)務(wù)流程和數(shù)據(jù)的打通。釘釘對 Agent 技術(shù)的探索一直圍繞企業(yè)實際需求展開,其差異化優(yōu)勢在于它通過千行百業(yè)的辦公需求(企業(yè)的“最大公約數(shù)”)吸引了大量的 ToB 用戶,并在其平臺的統(tǒng)一框架下積累了巨量的應(yīng)用和數(shù)據(jù)。前幾天,釘釘上線了自己的「Agent Store」(名為「AI助理市場」),已經(jīng)擁有超過200個AI助理。這種客戶粘性以及巨量用戶數(shù)據(jù)的積淀,讓釘釘在 Agent 的落地應(yīng)用上處于天然優(yōu)勢。03.做Agent,誰更有勝率? 檢驗Agent運轉(zhuǎn)是否有效,一個很重要的指標就在于其「信息檢索」的能力,這也是RAG技術(shù)備受重視的原因,它讓Agent能夠利用外部知識和時效信息,來為用戶提供更加精準、更有相關(guān)性的回答和服務(wù)。而這需要Agent生長在一個有海量數(shù)據(jù)的平臺里,最好還要有足夠多的插件和API工具方便Agent調(diào)用,最大化Agent的檢索和理解能力,以提升行動能力。也就是說,用戶數(shù)據(jù)量幾乎決定了「產(chǎn)品上限」。而這正是釘釘們擁有巨大優(yōu)勢的基石——基于強大的生態(tài)和用戶數(shù)據(jù),從而讓產(chǎn)品有更多優(yōu)化的空間。在釘釘入局AI一年以來,已經(jīng)有220萬家企業(yè)啟用了釘釘AI,覆蓋K12、制造、零售、地產(chǎn)、服務(wù)業(yè)、互聯(lián)網(wǎng)等眾多行業(yè)。這些都為釘釘AI平臺積累了豐富的數(shù)據(jù),釘釘?shù)摹窤I助理市場」中有從不同場景歸納出來的“模版”,用戶可以復(fù)制過來做新的場景的起點,這讓生長于釘釘平臺的Agent「通用性」更強。 做 Agent 的第二個要素是大模型,作為產(chǎn)品的 Agent 離不開大模型的賦能,因此「產(chǎn)模結(jié)合」具有先天優(yōu)勢。前文講到,Agent是一種端到端的大模型產(chǎn)品開發(fā)范式。傳統(tǒng)AI產(chǎn)品一般采用過程性的管式(pipeline)系統(tǒng)架構(gòu),模塊層層依賴、串聯(lián),Input 與 Output 兩端之間有很多中間結(jié)果,模塊化的鏈路很長;而理想的大模型產(chǎn)品是端到端的,產(chǎn)品的迭代提升可以隨著流程化的回流數(shù)據(jù)自動通過端到端訓(xùn)練來增強。端到端的開發(fā)要求對很多「產(chǎn)模分離」的公司構(gòu)成了巨大的挑戰(zhàn),而少數(shù)「產(chǎn)模結(jié)合」的公司則為端到端訓(xùn)練提供了可能性:一方面,產(chǎn)品源源不斷地收集經(jīng)同意的用戶反饋“埋點”數(shù)據(jù),反哺一體化大模型的用戶對齊訓(xùn)練,模型的數(shù)據(jù)質(zhì)量會隨之提升; 另一方面,不斷迭代的模型反哺產(chǎn)品體驗的優(yōu)化,對齊用戶期望的產(chǎn)品能吸引更大的用戶群,帶來更多的數(shù)據(jù)回流。以此構(gòu)筑的數(shù)據(jù)壁壘和用戶粘性,才不至于被其他通用大模型的升級換代而碾壓。 而釘釘,本身就是一個真正的「產(chǎn)模結(jié)合」公司。有自家大模型,做的是自己的 Agent 產(chǎn)品。產(chǎn)品對模型起到關(guān)鍵的「定向」或「燈塔」作用:一是產(chǎn)品需求可指導(dǎo)產(chǎn)品優(yōu)化方向;二是產(chǎn)品有助于檢驗?zāi)P偷膶嶋H表現(xiàn)。對釘釘來說,基于海量數(shù)據(jù)的「AI助理市場」,就是那柱指示燈塔,使其模型的訓(xùn)練目標更加聚焦。做好Agent的第三個因素是需要平臺的工程化能力。釘釘上線「AI助理市場」時,其 Agent的能力已有了大跨步的升級。比如在行動系統(tǒng)方面,AI助理「擬人操作」能力大幅增強,AI助理在觀看主人的操作路徑后,即可自動化進行頁面操作,提升高頻業(yè)務(wù)行為的操作效率,比如一句話讓釘釘AI助理在應(yīng)用中自動錄入客戶信息、提交維修工單,也支持跳轉(zhuǎn)聯(lián)動飛豬等外部的網(wǎng)頁應(yīng)用,自主完成訂機票、訂酒店。再比如工作流,為讓AI助理可以處理更復(fù)雜的任務(wù),釘釘在助理的創(chuàng)建過程中加入了工作流。用戶可對任務(wù)進行拆解,通過編排執(zhí)行動作后讓AI助理替自己來完成,使得任務(wù)的完成結(jié)果更準確,更可控。擬人操作、工作流、連接外部API和系統(tǒng),都屬于Agent的進階玩法,進一步擴展其行動能力。 作為協(xié)同辦公平臺的「通用性」、超強大模型的「易用性」和大量工程化的「確定性」,這些都是釘釘做AI助理更有優(yōu)勢的底氣。
04.基于AI大模型,可以衍生出的產(chǎn)品形態(tài)有開放MaaS平臺、以AI Infra為代表的中間層產(chǎn)品等。且在領(lǐng)域藍海中,也有垂直縱深發(fā)展的一支。那么,為什么釘釘選擇主推Agent生態(tài),要做一個橫向覆蓋各行各業(yè)的Agent市場呢?一個洞察或許可以回答這個問題:從長遠來看,垂直解決方案獲勝的方法之一是橫向發(fā)展。 深潛于垂直領(lǐng)域仍是一片藍海市場,最終可能被兩大江山來瓜分。一種是橫向的切入,另一種是縱向的深入——基于通用大模型,做行業(yè)大模型,然后做行業(yè)場景的Agent。很難說后者就一定會被前者碾壓,而選擇橫向切入的前者是很難專門去為每一個垂直領(lǐng)域去做行業(yè)大模型的,它通常只能用場景數(shù)據(jù)臨時加持,表現(xiàn)在 Finetune 和 In-context-learning 上,而不大能做基礎(chǔ)模型的改變。最近,企業(yè)家和平臺經(jīng)濟學(xué)家Sangeet Paul Choudary在博客中提出了一個觀點,他認為,Agent 創(chuàng)造了一個重新整合場景的可能性,它們使垂直領(lǐng)域的AI玩家能夠通過跨多個工作流程進行協(xié)調(diào)來實現(xiàn)「水平」發(fā)展,這將重塑B2B價值鏈。同樣是拿SaaS作類比,之前垂類SaaS的崛起遵循的是兩個邏輯:一是抓住核心場景實現(xiàn)快速發(fā)展;二是圍繞核心場景做場景延伸。比如,Square以支付SaaS為起點,后來逐漸擴展到To B和To C的雙生態(tài)系統(tǒng),擴展出了開發(fā)者、虛擬終端、銷售、電子商務(wù)、客戶管理、發(fā)票、股票投資、分期付款、虛擬貨幣等不同的產(chǎn)品線,覆蓋餐飲、零售、金融、電商等各個行業(yè),成為了一個綜合性的SaaS解決方案提供商。再比如,Toast從為餐廳提供POS機的單點解決方案,擴展到了一個包含軟件(餐廳管理、渠道、訂購、配送交付、薪酬管理、營銷、掃碼訂購)、硬件(固定式終端、手持式終端、非接觸式終端)和配套服務(wù)(售后、小額貸款)等的綜合性餐飲SaaS平臺。可以看出,Square和Toast這類SaaS巨頭都遵循了從垂直到水平擴張的發(fā)展策略。Sangeet認為,大多數(shù)對現(xiàn)狀的“破壞”(可以理解為創(chuàng)新)都是通過深挖細分場景發(fā)生的,但大多數(shù)風(fēng)險投資回報都是通過“整合”實現(xiàn)的。分拆并不能獲取可持續(xù)的價值,比如很多VC確實會在一開始關(guān)注細分場景的創(chuàng)新者,但是最后大部分利益都被做生態(tài)的“整合者”拿走了。為了大規(guī)模獲取價值,軟件企業(yè)需要持續(xù)做場景延伸——最終,所有垂直游戲都尋求橫向發(fā)展。這一道理或許同樣適用于Agent。盡管Agent具備很好的感知、推理和行動的能力,將其應(yīng)用于垂直領(lǐng)域可以快速、有效地解決痛點,但這并不能構(gòu)成護城河,反而真正的護城河在于底層數(shù)據(jù)的打通之后,Agent之間的互動和配合,也就是Agent跨API重新整合工作流,最終帶動整個系統(tǒng)的提質(zhì)增效。而AI Agent Store,也就是AI助理市場,正是這種「整合」和「大一統(tǒng)」的體現(xiàn),這也是釘釘推出AI助理背后的戰(zhàn)略布局——釘釘要用建立在自己“Hub”上的AI助理市場變革整個To B生態(tài),基于原有的行業(yè)和數(shù)據(jù)積累,實現(xiàn)To B領(lǐng)域最大程度的提質(zhì)增效。這一年來,從各個產(chǎn)品線的智能化改造到將AI PaaS開放給生態(tài)伙伴和客戶,從AI Copilot到AI Agent、再到AI Agent Store,釘釘一步一步趟出了AI規(guī)模化落地的一種形態(tài)。在目前各行各業(yè)都急于尋找大模型落地場景的當(dāng)下,釘釘提供了一個AI應(yīng)用落地的樣板。我們認為,Agent在To B領(lǐng)域的應(yīng)用,其實是將AI應(yīng)用于加速企業(yè)數(shù)字化進程的體現(xiàn)。Agent的能力加持,解決的最核心問題是「降本增效」,這種特性也決定了以釘釘為代表的AI助理能在To B領(lǐng)域的藍海中具有更大的規(guī)?;瘧?yīng)用推廣的空間。隨著AI Agent自主性的進一步加強,Agents 會發(fā)展成為更加專業(yè)化的代理,平替多數(shù)專業(yè)工作和技能。從趨勢上看,大模型 Agents 取代人類的 90% 的專業(yè)工作并非遙不可及,而剩下的10%,也會有CoPilot來加持人類專業(yè)人士。在更遠的未來,Agents 有可能進化成為「全能智能體」,完全取代人類工作,并與更多的硬件產(chǎn)品結(jié)合(不僅限于具身智能和人形機器人)。彼時的人類文明與AI Agents 會是怎樣的關(guān)系呢?一切正在從當(dāng)下這場To B的Agent必爭之地中起步。
|