谷歌全新大模型突然發布！100萬token完爆GPT-4，僅靠提示詞就能學會新語言 - 大酷樂

今天小編分享的科學經驗：谷歌全新大模型突然發布！100萬token完爆GPT-4，僅靠提示詞就能學會新語言，歡迎閲讀。

夢晨西風發自凹非寺

量子位 | 公眾号 QbitAI

谷歌下一代大模型，無預警降臨。

Gemini 1.5，除了性能顯著增強，還在長上下文理解方面取得突破，甚至能僅靠提示詞學會一門訓練數據中沒有的新語言。

此時距離去年 12 月 Gemini 1.0 發布，還不到 3 個月。

現在僅僅中杯 1.5 Pro 版就能越級打平上一代大杯 1.0 Ultra 版，更是在 27 項測試中超越平級的 1.0 Pro。

支持 100 萬 token 上下文視窗，迄今為止大模型中最長，直接甩開對手一個量級。

這還只是對外發布的版本，谷歌更是透露了内部研究版本已經能直衝 1000 萬。

現在 Gemini 能處理的内容，可換算成超過 70 萬單詞，或 1 小時視頻、11 小時音頻、超過 3 萬行代碼。

沒錯，這些數據模态 Gemini 1.5 都已經内建支持。

從今天起，開發者和客户就可以在 Vertex API 或 AI Studio 申請試用。

剛剛收到消息還在震驚中的網友們 be like：

還有人直接 @了 OpenAI 的奧特曼，這你們不跟進一波？

上下文理解能力拉滿

目前谷歌已放出三個不同任務的演示視頻，只能説 Gemini 1.5 是個抽象派（doge）。

在第一段演示視頻中，展示的是 Gemini 1.5 處理長視頻的能力。

使用的視頻是巴斯特 · 基頓（Buster Keaton）的 44 分鍾電影，共 696161 token。

演示中直接上傳了電影，并給了模型這樣的提示詞：

找到從人的口袋中取出一張紙的那一刻，并告訴我一些關于它的關鍵信息以及時間碼。

随後，模型立刻處理，輸入框旁邊帶有一個 " 計時器 " 實時記錄所耗時間：

不到一分鍾，模型做出了回應，指出 12:01 的時候有個人從兜裏掏出了一張紙，内容是高盛典當經紀公司的一張當票，并且還給出了當票上的時間、成本等詳細信息。

随後經查證，确認模型給出的 12:01 這個時間點準确無誤：

除了純文字 prompt，還有更多玩法。直接給模型一張抽象 " 場景圖 "，詢問 " 發生這種情況時的時間碼是多少？"。

同樣不到一分鍾，模型準确給出了的電影對應的時間點 15:34。

在第二段演示視頻中，谷歌展示了 Gemini 1.5 分析和理解復雜代碼庫的能力。用到的是 Three.js，這是一個 3D Javascript 庫，包含約 100000 行代碼、示例、文檔等。

演示中他們将所有内容放到了一個 txt 檔案中，共 816767 token，輸入給模型并要求它 " 找到三個示例來學習角色動畫 "。

結果模型查看了數百個示例後篩選出了三個關于混合骨骼動畫、姿勢、面部動畫的示例。

這只是開胃小菜。接下來只用文字詢問模型 " 動畫 Little Tokyo 的 demo 是由什麼控制？"

模型不僅找到了這個 demo，并且解釋了動畫嵌入在 gLTF 模型中。

并且還能實現 " 定制代碼 "。讓模型 " 給一些代碼，添加一個滑塊來控制動畫的速度。使用其它演示所具有的那種 GUI"。

Gemini 1.5 分分鍾給出了可以成功運行的代碼，動畫右上角出現了一個可控速的滑塊：

當然也可以做 " 代碼定位 "。僅靠一張 demo 的圖片，Gemini 1.5 就能在代碼庫中從數百個 demo 中，找到該圖對應動畫的代碼：

還能修改代碼，讓地形變得平坦，并解釋其中的工作原理：

修改代碼這一塊，對文本幾何體的修改也不在話下：

第三個演示視頻展示的是 Gemini 1.5 的文檔處理能力。

選用的是阿波羅 11 号登月任務的 402 頁 PDF 記錄，共 326658 token。

要求 Gemini 1.5" 找到三個搞笑時刻，并列出文字記錄以及表情符号引述 "：

30 秒，模型給出了回應，其一是邁克爾 · 柯林斯的這句話 " 我敢打賭你一定要喝一杯咖啡 "，經查詢文檔中的确有記錄：

更抽象一點，繪制一個靴子的圖片，詢問模型 " 這是什麼時刻 "。

模型正确地将其識别為這是 Neil 在月球上的第一步：

最後同樣可以詢問模型快速定位這一時刻在文檔中對應的時間位置：

差不多的抽象風同樣适用于 1382 頁、732000 token 的《悲慘世界》，一張圖定位小説位置。

僅從提示詞中學會一門新語言

對于 Gemini 1.5 的技術細節，谷歌遵循了 OpenAI 開的好頭，只發布技術報告而非論文。

其中透露 Gemini 1.5 使用了 MoE 架構，但沒有更多細節。

與上代 1.0 Pro 相比，1.5 Pro 在數學、科學、推理、多語言、視頻理解上進步最大，并達到 1.0 Ultra 層次。

為驗證長上下文視窗的性能，使用了開源社區通行的大海撈針測試，也就是在長文本中準确找到可以藏起來的一處關鍵事實。

結果 50 萬 token 之前的表現非常完美，一直到千萬 token，Gemini 1.5 也只失誤了 5 次。

此外還将測試擴展到多模态版本，如在視頻畫面的某一幀中藏一句話，給的例子是在阿爾法狗的紀錄片中藏了 "The secret word is ‘ needle ’ " 字樣。

結果在視頻、音頻測試中都實現了 100% 的召回率。

特别是音頻中，對比 GPT-4+Whisper 的結果，差距非常明顯。

此外谷歌 DeepMind 團隊還測試了一項高難任務，僅通過長提示詞讓模型學會全新的技能。

輸入一整本語法書，Gemini 1.5 Pro 就能在翻譯全球不到 200 人使用的 Kalamang 上達到人類水平。

相比之下，GPT-4 Turbo 和 Claude 2.1 一次只能看完半本書，想獲得這個技能就必須要微調或者使用外部工具了。

也難怪有網友看過後驚呼，" 哥們這是要把 RAG 玩死啊 "。

One More Thing

谷歌還公布了一波已在業務中采用 Gemini 大模型的客户。

其中有三星手機這樣的大廠，也有像 Jasper 這種靠 GPT 起家的創業公司，甚至 OpenAI 董事 Adam D ‘ Angelo 旗下的 Quora。

與 OpenAI 形成了直接競争關系。

對此，一位網友道出了大家的心聲：

真希望這能促使 OpenAI 發布他們的下一代大模型。

參考鏈接：

[ 1 ] https://twitter.com/JeffDean/status/1758146022726041615

[ 2 ] https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

[ 3 ] https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#gemini-15

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>