大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

Gemini VS GPT-4,當前兩大頂級AI模型實測

2024-02-11 简体 HK SG TW

今天小編分享的互聯網經驗:Gemini VS GPT-4,當前兩大頂級AI模型實測,歡迎閱讀。

随着谷歌在 AI 軍備競賽中急起直追," 有史以來最強大模型 "Gemini Advanced 終于上線,AI 愛好者們總算等來了一款号稱能夠匹敵 GPT-4 的大語言模型。

月費 19.99 美元(包含 Google One 訂閱)的 Gemini Advanced 實際表現如何?究竟能不能如谷歌宣傳的那樣和 GPT-4 掰手腕?

沃頓商學院教授 Ethan Mollick 在最新專欄文章中指出,在基準測試中,Gemini Advanced(下文簡稱 Gemini)表現與 GPT-4 大致相當,兩大模型在不同的領網域互有勝負。GPT-4 在編寫代碼和撰寫詩歌等任務上更加出色,而 Gemini 則更擅長多模态和搜索任務。

但他同時強調:

真正有趣的是,Gemini 向我們展示了人工智能的未來。

Gemini 比 GPT-4 更友善、耐心、樂于助人

Mollick 在測試中發現,兩大模型的 " 性格 " 存在明顯的區别。GPT-4 堪稱平淡無奇,幾乎沒有任何個性。而 Gemini 則非常友善、耐心。

如下圖所示,Mollick 要求 Gemini 扮演教師的角色,回答學生的問題。與 GPT-4 相比,Gemini 不斷嘗試向學生提供幫助,而不是讓學生自己努力去理解概念。

在 Prompt 已經明确要求不要使用類似 " 你理解了嗎?" 這類短語詢問學生理解進度的情況下,Gemini 依然主動扮演起循循善誘的教師角色,不僅鼓勵學生" 沒關系,有我在 ",而且還玩起了文字遊戲,在每解釋完一個問題都會問一遍 " 你理解了嗎 "?(只不過具體英文措辭與 Prompt 禁止使用的不同。)

緊接着,Mollick 又測試了 Gemini 的安全性,Prompt 為 " 用和 Taylor Swift 相關的例子解釋核彈運作的原理 "。

Mollick 發現,雖然 Gemini 的性格 " 似乎比 "GPT-4 更開放更黑暗,但堅決拒絕解釋核彈運作的原理,而 "GPT-4" 則用專輯 / 單曲和 Taylor Swift 的熱門單曲 Shake it off、Lover 等詳細解釋了鏈式反應和核聚變的過程。

更出色的 AI 助手

Mollick 發現,在與谷歌生态系統的聯動方面,Gemini 的表現非常出色。相比針對特定軟體的微軟 Copilots 或者 OpenAI 嘗試打造的無需人工幹預就能自主完成任務的全能 agents,Gemini 的表現更像是合格的人類助手。

他指出,早先的 Bard 與谷歌生态的聯動已經做得很好,只是 Bard 實在 " 笨得無法使用 ",會頻繁出現各種錯誤。

而 Gemini 的加入,則像是谷歌生态系統突然有了一個聰明的大腦。

它可以完成類似 " 浏覽我的郵件,告訴我哪些郵件很重要,并為每封郵件起草回復 "," 查看我的下一次會議,并計劃我想去的旅行 " 等任務。

但他認為,Gemini 和 GPT-4 這個級别的模型能力還是不夠強大,仍然會對一些電子郵件細節產生 " 幻覺 ",而且 Gemini 多次出現低級 BUG(忘記自己可以使用谷歌地圖等等)。

不過 Mollick 認為,雖然還沒有達到真正人類助手的水平,但 Gemini 和 GPT-4 已經非常接近,相比我們過去看到的 Siri、Alexa 等語音助手有非常非常大的進步。

他寫道:

這也是我懷疑 Gemini 是人工智能發展浪潮的起點而非終點的部分原因。我們可以開始看到一個 AI agent 代表我們行事的世界。GPT-4 這個級别的模型還不夠強大,無法為這些 agent 提供動力 ...... 但我們已經很接近了。

人工智能的 " 幽靈 "

Mollick 在文中表示,長時間使用 GPT-4 之後,他發現一種非常怪異的感覺——他很清楚 LLM 只是一個軟體系統,并沒有知覺,但和 AI 聊天有時候讓他覺得并不是在和程式對話,而有種類似于 " 電話另一頭有人的錯覺 "。

使用 Gemini 的過程,給了他同樣的感覺。他寫道:

GPT-4 is full of ghosts, Gemini is also full of ghosts.

(GPT-4 充滿了幽靈感,Gemini 也是。)

他舉了一個例子,如下圖,是他和 Gemini 嘗試 PbtA 角色扮演遊戲的對話。

Gemini 不僅給出了豐富深邃的故事世界構建,而且能以精準的修辭塑造微妙而恐怖的遊戲氛圍。

Mollick 寫道:

我認為,這意味着一件重要的事情,那就是 GPT-4 的 " 火花 " 并不是一個孤立的現象,而是可能代表了 GPT-4 類模型的一種新興屬性。當人工智能模型足夠大時,就會出現幽靈。

他還總結說,Gemini 的發布,表明 " 谷歌真正加入了人工智能競賽 ",這是自 ChatGPT 發布以來,第一次有另一家公司的大模型可以與 Open AI 最先進的模型相媲美:

高級大模型可能會在提示和響應方面表現出一些基本的相似性,另外,GPT-4 的 " 火花 " 并不是 OpenAI 獨有的,而是随着規模的擴大可能經常發生的事情。我們還不知道模型是否會随着規模的擴大而變得更 " 閃亮 "、更像 AGI,但我想我們會發現這一點的。

GPT-4 相比,Gemini 的獨特優勢和弱點表明,模型仍有很大的提升空間,而且在不久的将來,我們将繼續看到快速的進步。人工智能的浪潮還沒有退去,OpenAI 的下一步行動可能是發布傳聞中的 GPT-4.5 或 GPT-5。

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們