【原】字節(jié)跳動新推出的AI機器人工具：“豆包”是什么？

百收網(wǎng) 2023-09-06 發(fā)布于云南

展開全文

字節(jié)全方位發(fā)力AI大模型，上半年是飛書妙記，今天是豆包，還有buboGPT更牛

字節(jié)的 GPT 算是徹底爆發(fā)了，首先是今天突然發(fā)布了聊天工具，名字叫豆包，不過豆包只是字節(jié)在大模型上放的一個小技能大招，我放到后面說，從紙面上看可比 OpenAI 的要厲害多了。咱先說豆包，它是全平臺支持的，包括網(wǎng)頁以及安卓和蘋果的 APP 網(wǎng)址，我放粉絲群了，直接打開下載就可以了。豆包用抖音號直接就能登錄，目前的消息是限量邀請，但是我兩個號都登進(jìn)去了，都用上了，也沒跟我要什么邀請碼，可能是先到先得，也就是目前還有名額。我問了一下他用的是哪個大語言模型，是不是開源的？ LLAMA 還是ChatGLM？那他說是云雀，這個應(yīng)該是字節(jié)自研的模型，豆包可以寫代碼，可以寫文案，可以和你聊天，但是不能輸出圖片，只支持中英文。我測試的是它不支持日語。豆包有意思的是每次他回復(fù)你自動播放語音，提高。

社交能力需要付出持續(xù)的努力和實踐。

當(dāng)然你要不想聽的話，右上角這個小喇叭給他點了就可以了。那安裝好以后默認(rèn)有 4 個對話，有豆包英語學(xué)習(xí)助手、全能寫作助手，還有超愛聊天的小寧。這我不知道和豆瓣有什么區(qū)別。相比于其他的 AI 聊天軟件，它不能預(yù)設(shè)， prompt 也沒有給你提供，應(yīng)該是每次都讓你來寫騎手勢來定角色了，后續(xù)應(yīng)該會更新這功能。那找了一篇文章來讓他分析一下。

7000 多字，輸入進(jìn)去直接就不說話了。我字?jǐn)?shù)少一點， 1000 字它就沒什么問題，那我再整個 3000 字的，它會告訴我超過字?jǐn)?shù)限制。今天就是簡單測試一下該會的，它都差不多，包括我之前寫的這個哆啦 a 夢的邏輯問題測試，它都完成的不錯，它是能識別出什么是現(xiàn)實世界，什么是漫畫世界。

其實這個也不是字節(jié)的第一款產(chǎn)品了，前面有一個飛書妙記集成在飛書軟件里也是大語言模型的產(chǎn)品。我當(dāng)時以為是字節(jié)要直接打辦公場景了，開個會自動寫個會議紀(jì)要啥的，直接提高辦公人的效率。沒想到突然又出現(xiàn)了純聊天的軟件，說明字節(jié)跳動已經(jīng)全面加入了大模型的大亂斗當(dāng)中。

而且真正的大招是這個叫 Google GPT 的，8月 17 號剛剛在預(yù)印本網(wǎng)站上上傳了論文，那 Git Hub 上也有 300 個星了。 Google GPT 除了常規(guī)的大語言模型支持的這些文字輸入以外，還支持圖片和聲音的多模態(tài)輸入。它能看出來泳池里有一只貓，談及它的青蛙，而且能看出這些圖片的笑點和含義。當(dāng)然別急，基操物流這些功能都是 GPT 4 半年前在 PPT 上展示的大餅，現(xiàn)在還沒實現(xiàn)。

Google 這個更厲害的是它能做到細(xì)顆粒度、多模態(tài)的聯(lián)合理解。什么意思？就是其他的多模態(tài)的模型，要不然就只能聽，要不然就只能看。 Google 這個是它既能聽又能看同時來，而且分辨的很細(xì)致。比如說這個，他知道圖片里的人在騎自行車，狗在旁邊叫，比如說這個吹風(fēng)機在響，它知道是這個女人在給貓吹風(fēng)吹干。那你可想而知，以后監(jiān)控裝上了這玩意兒，那可真不得了啊，上課的時候，教室前面攝像頭對著所有人的臉拍，誰學(xué)進(jìn)去了，誰沒學(xué)進(jìn)去？誰偷摸講話了，傳紙條都給你看得明明白白。

現(xiàn)在的 AI 工具幫你總結(jié)視頻網(wǎng)站的視頻，要不然就是抓取字幕，然后分析文字，要不然就是語音轉(zhuǎn)文字，然后分析文字。字節(jié)的這個多模態(tài)可真的是幫你看電影了。當(dāng)然了，對算力的要求可能比現(xiàn)在要高得多得多。那這幾個月呢？ AI 其實比較冷清，國內(nèi)外其實都沒有特別亮眼的產(chǎn)品，都沒超過 GPT 4。下半年蘋果應(yīng)該還會有王炸。

but there is just one more thing。

不知道是什么東西，那下一波大模型的浪潮不知道是不是又要開始。

本文由：百收網(wǎng)絡(luò)公司編輯，喜歡點上面頭像關(guān)注，請勿轉(zhuǎn)載