前兩天,谷歌發(fā)布了 Gemini 2.0,打響了反“OpenAI 夸大營銷”的第一槍。 如果你已經(jīng)體驗過了 Gemini 2.0 的多模態(tài)功能,你應(yīng)該會跟我發(fā)出一樣的吶喊:臥 x,這是真的牛 x。 超快視覺理解速度、超像人的語音語調(diào)、響應(yīng) 0 延遲無卡頓,而且還是個免費勞動力。 這幾天,Gemini 2.0 在外網(wǎng)已經(jīng)徹底瘋狂了。一打開 Twitter,10 條熱門里面有一半以上都是網(wǎng)友用 Gemini 2.0 跑出的哇塞玩法。 相比之下,OpenAI 這幾天在外網(wǎng)幾乎沒啥熱度。這個反差,太讓人唏噓了。 廢話不多說,下面筆者就來帶你見識一下網(wǎng)友玩出的 Gemini 2.0 令人哇塞的用法! 最佳 AI 游戲外掛(以下視頻中字幕與翻譯均由機器自動生成,不保證翻譯質(zhì)量) 如果你喜歡打游戲,那你一定知道,打游戲的最高配置是:外掛 朋友。 而這里,Gemini 雖然沒有直接破解游戲,但它能在你打游戲的時候,做你的語音搭子,直接指導(dǎo)你怎么破局。 這簡直就是一個活脫脫的通用 AI 外掛呀。 無論你是想讓 AI 幫你分析游戲局勢,還是單純的閑聊,只要你想聊天,Gemini 都能隨時回答你。 或者你突然有一個解密過不去了,卡關(guān)了,Gemini 還能根據(jù)自己理解游戲規(guī)則的能力,給你建言獻策。 說到策略游戲,之前我在網(wǎng)上,看到過一個很搞笑的話題: 用 AI 下象棋,克制大爺。 我現(xiàn)在在想,讓 Gemini 看著棋盤教我下棋,能不能指導(dǎo)我戰(zhàn)勝大爺。 有興趣的小伙伴可以身先士卒,找個下象棋的大爺試一試。(小心不要被大爺發(fā)現(xiàn)了暴打一頓) AI 陪讀論文搭子如果今天你還在用 GPT、Kimi 等對話助手“總結(jié)論文”-“多輪對話”,那真的已經(jīng)不能把你叫做 AI 發(fā)燒友了。 因為,真正的 AI 發(fā)燒友已經(jīng)在用 Gemini 2.0 陪讀 AI 論文了。 不需要再像 ChatBot 產(chǎn)品那樣苦哈哈的瘋狂打字、對話調(diào)教,絞盡腦汁告訴它你現(xiàn)在在讀哪里。你現(xiàn)在直接就能把你的論文跟 Gemini 遠(yuǎn)程共享桌面,然后哪里不懂了直接用嘴問。 這體驗,已經(jīng) 100% 碾壓了上一代對話產(chǎn)品了。 AI 閱讀賽道,變天了。 AI 編程搭子(真 · Peer Coding)程序員有兩件事兒最爽—— 一件事兒是深夜自己一個人敲代碼。 另一件事兒是白天拉個大神跟你一塊敲代碼。 但不是每個人都能找到一個大神做自己的編程搭子的,一不小心找來的可能是個給自己寫 bug 的豬隊友。 現(xiàn)在不一樣了—— Gemini 2.0 當(dāng)編程搭子簡直不要太爽! 無論你現(xiàn)在是處在命令行、IDE 還是其他什么開發(fā)環(huán)境里,都能直接跟編程搭子實時 peer coding 了。 當(dāng)然,有一點不太好,就是它沒法像 cursor、windsurf 等 AI 編程應(yīng)用一樣直接替代改代碼,用嘴講怎么改,有時會讓人捉急。 如果將來再給 Gemini 開放遠(yuǎn)程控制、鍵盤輸入的權(quán)限,AI 編程領(lǐng)域可能要大變天了。 AI 星級廚師午飯吃什么,晚飯吃什么,夜宵吃什么? 每日的靈魂三問,現(xiàn)在可以讓 Gemini 2.0 來幫忙做決定了。 它能根據(jù)你廚房里現(xiàn)有的食材,給你提供一個選擇—— 跟上一個編程的例子不同的是,編程用的共享屏幕功能,這個是用的攝像頭。 對,就只需要對著你的冰箱拍就行。把攝像頭對準(zhǔn)冰箱里的食材,Gemini 就能迅速分辨出冰箱里各種食材,給你搭配出來一頓飯。 如果你拿國產(chǎn)的 AI 視頻測一測,就能感受到 Gemini 2.0 這個做的多牛了。 but...Gemini 給推薦的是西餐,國產(chǎn) AI 模型廠商們能不能給搞個中餐版本出來?? 此處 @ 智譜 @ 階躍 @ 豆包 @Kimi @ 文心 @ 通義 @ 海螺 ...(排名無先后) AI 調(diào)酒師除了提供食譜,Gemini 還能教你調(diào)酒。 直接攝像頭對準(zhǔn)架子上的基酒,Gemini 可以直接識別出架子上有什么酒,還能立刻回復(fù)調(diào)酒配方。這個視覺理解速度和響應(yīng)速度,真的不是蓋的。 這名網(wǎng)友的手特別抖……我看視頻的時候,都沒有看清架子上到底有什么酒,只能一遍一遍暫??础?/p> 如果是這個網(wǎng)友跟我打視頻電話,問我怎么調(diào)酒,我可能會把他扁一頓,讓他拿穩(wěn)手機再說話…… 失敗案例:虛擬實時鋼琴教師在教學(xué)方面,還有一個網(wǎng)友讓 Gemini 教自己彈鋼琴。 這里 Gemini 的確回應(yīng)了網(wǎng)友的需求,但是——它教的是錯的。 視頻里網(wǎng)友希望 Gemini 找出 G 鍵的位置,結(jié)果它誤導(dǎo)網(wǎng)友找的是 C 鍵的位置。而且,這名網(wǎng)友真的是新手。如果不是評論區(qū)的好心人指正,可能他以后都會認(rèn)為 C 鍵是 G 鍵了。 對于不懂行的人來說,幻覺問題導(dǎo)致的認(rèn)知錯誤是非常致命的。 這種重復(fù)的黑白按鍵畫面,對 AI 來說,處理起來還是捉襟見肘了。 不過這個例子確實有點刁難,姑且原諒 Gemini 這一次。 這個例子暴露出 Gemini 的另一個弊端是:它沒法理解曲目。 現(xiàn)在 Gemini 還只能分辨人聲,它“聽不進去”音樂。 軟件教學(xué)搭子大伙剛上手一個新軟件時,是不是也會被軟件琳瑯滿目的按鈕震懾到? 反正我剛開始使用 PS 軟件的時候,我確實是被嚇到了。數(shù)不清的按鈕,看不懂的描述。 視頻里的小哥就是在用 Gemini 解決這個問題。 只要給它描述出你想要做的事情,你想要實現(xiàn)的效果,Gemini 就會幫你找出點哪個按鈕可以實現(xiàn)。 這個功能還是很不錯的。以后上手一個新程序的時候,就沒什么學(xué)習(xí)難度了。 我愿稱這個例子為最直觀的體現(xiàn) Gemini 用處的一個。 調(diào)教說話語氣這個示例中,網(wǎng)友在 system prompt 中對語調(diào)進行了約束,來讓 Gemini 說話風(fēng)格更符合需求。 我本來很想試一下,Gemini 能不能說中文方言。但比較可惜的是,Gemini 不會說中文,更不用說讓它學(xué)中文方言口音了。 ChatGPT 的語音模式倒是能說中文,但是你們?nèi)ンw驗一下就知道了,一股子大佐味…… 果然中文對話這一塊,還是得看我們的國產(chǎn)模型。 讀書搭子最后這個例子跟開頭的 AI 陪讀論文比較類似,這名網(wǎng)友把自己正在讀的書共享給 Gemini,讓它回答一些書中的問題,而 Gemini 都回答上來了。 而且這個網(wǎng)友的需求還挺特殊,他是這么說的:他就是需要一個這樣的天才 AI,陪自己讀書。問問題它會回答,有自己的理解,而且可以隨時隨地陪伴著自己。 好家伙,就是主打一個陪伴。 但不得不說,這種需求還是真實存在的。 上一個陪伴自己的是小說、游戲、短視頻。下一個陪伴自己的,就是 AI。 他體驗完 Gemini 2.0 后,跟我的想法一樣: Gemini 2.0 是一個真正的 AI 助手。 最后,我突然想 cue 一下 OpenAI。 要問為什么,因為我每天熬夜追 OpenAI 的發(fā)布會直播,結(jié)果 OpenAI 更新內(nèi)容的含金量一天不如一天…… 今天 OpenAI 發(fā)布會講了個啥? 今天,OpenAI 學(xué) Anthropic 的 Claude project(文件夾功能),往 ChatGPT 里面也加了一個“project”功能: 如果把每次對話比作一個文件,那 project 功能就是一個文件夾。 用 project 可以組織對話,相當(dāng)于把一堆文件整理到一個文件夾里面; ChatGPT 還可以根據(jù)文件夾中的對話內(nèi)容,語氣,來調(diào)整 ChatGPT 的風(fēng)格和功能。支持上傳文件、設(shè)置自定義指令,還集成了 Search 和 Canvas 等功能。 有一種沒活硬整的感覺……還是看看遠(yuǎn)處的視覺功能吧,家人們。 極端點說,除了第一天的 o1 滿血版,我感覺 OpenAI 后面這幾天的直播更新內(nèi)容加起來,還沒有谷歌一個 Gemini 2.0 勁爆。 雖然在 Gemini 2.0 發(fā)布的第二天,OpenAI 也官宣了高級語音模式的視覺功能—— 但是,這還是個期貨,要后續(xù)才能體驗到,真的讓人挺無語的。 我猜,OpenAI 原定的是,下周官宣視覺功能。 而谷歌這一手王炸,把 OpenAI 整急了,不得已把視覺功能的直播排期提前,進行魔法對波。但視覺功能還在調(diào)試中,只能下周拿出來。 這么一想,感覺還挺合理的? 等 OpenAI 的視覺功能正式上線了,我還會做一手實測,看看它是不是真的值得我們等這么久。 如果小伙伴們有什么靈光一現(xiàn)的想測試的場景 case,歡迎在評論區(qū)分享出來~ |
|