今天小編分享的科學經驗:谷歌Gemini突發試驗版模型,重回競技榜第一!新版GPT-4o只領先了1天,歡迎閲讀。
谷歌和 OpenAI 又杠上了。
在新版 GPT-4o 剛登頂競技榜後 1 天,立馬發布最新試驗版模型 Gemini-Exp-1121 奪回冠軍寶座。
要知道,一周前上一版模型 Gemini-Exp-1114 才發布。
這怕不是拿準了 OpenAI 會來争擂台,故意留了一手。
這就是引誘 OpenAI 發新版 GPT-4o,然後再用更好的模型來狙擊它。
谷歌的研究人員們顯然很得意。
谷歌 DeepMind 首席科學家 Jack Rae,稱這是一場有趣的後訓練 " 閃電戰 "。暗示 post-training 的迭代速度要比預訓練快得多。
DeepMind 研究副總裁 Oriol Vinyals 還隔空發問奧特曼:最近還有提交計劃嗎?
火藥味很足,也很自信啊。
所以 "1121" 有多強?來看具體性能。
代碼 / 推理 / 視覺理解全提升
按照官方説法,Gemni-Exp-1121 重點提升了三方面性能。
代碼能力顯著提升
更強推理能力
更強視覺理解能力
除了風格控制外,其他方面目前都位于第一。
在視覺能力方面,Gemini-Exp-1121 比上一版還有提升。
風格控制下的復雜提示詞方面,Gemini-Exp-1121 和 o1-preview、New Sonnet 3.5 水平相當。
競技場中的實際勝率如下。
現在也能直接上手體驗。
比如針對同一張漫畫,讓 Gemini-Exp-1121 和 GPT-4o-lastest-1120 給出理解。
Gemini-Exp-1121 的回答更加全面且詳細,并且善用小标題、重點加粗。
新版 4o 的回復就比較簡短和籠統。
在經典的動物過河邏輯推理題上,Gemini-Exp-1121 回答完全正确,新版 4o 出現了一些失誤,把第三次過河和第四次過河合并了,因此回答有誤。
問題:農夫需要把狼、羊和白菜都帶過河,但每次只能帶一樣物品,而且狼和羊不能單獨相處,羊和白菜也不能單獨相處,問農夫該如何過河。
One More Thing
值得一提的是,OpenAI 這邊也有新消息。
有人在 ChatGPT 最新測試版本中首次發現了 " 實時攝像 "(Live Camera)視頻功能的代碼。
它具體包括實時錄像、實時處理、語音模式集成以及視覺識别能力。
在高級語音模式推出時,一些用户有體驗到這一能力。
這意味着 OpenAI 已經做好了上線這一功能的準備。
另一邊谷歌也演示過類似的 demo,還沒上線。按照 OpenAI 的調性,很可能會搶在谷歌前全量鋪開。
或許等到明年,和 Chatbot 的主要交流方式,就要從文字對話轉為語音和 agent 了。Live Camera 可能就是開始,你覺得呢?
參考鏈接:
[ 1 ] https://x.com/OfficialLoganK/status/1859667244688736419
[ 2 ] https://x.com/adonis_singh/status/1859682100569571399
[ 3 ] https://x.com/OriolVinyalsML/status/1859730969600852222
[ 4 ] https://x.com/rowancheung/status/1859301345993556277