今天小編分享的科技經驗:谷歌新版Bard硬怼ChatGPT第二輪:七大項目比拼,後者略勝一籌,歡迎閲讀。
劃重點
1
美國知名科技博客媒體對谷歌新版 Bard 和 OpenAI ChatGPT 進行了第二輪測試,結果顯示 ChatGPT 略勝一籌。
2
這場測試共分為七個項目,分别是生成原創的老爹笑話、寫辯論稿、解答數學應用題、總結摘要、事實檢索、創意寫作以及編寫代碼。
3
在七項 PK 中,ChatGPT 險勝三場,Bard 僅勝一場,兩場平局,還有一場存在争議。
騰訊科技訊 據外媒報道,今年 4 月,美國知名科技博客媒體 Ars Technica 曾策劃了一場聊天機器人之間的 " 巅峰對決 ",讓谷歌剛推出的 Bard 與 OpenAI 的明星 ChatGPT 上演了一場精彩紛呈的 PK 大戰。當時,在七個項目的比拼中,ChatGPT 在五個項目中占據優勢,盡管它當時還只是 " 生成式人工智能領網域初出茅廬的新人 "。
現在,我們已然身處人工智能的 " 黃金時代 ",本周谷歌推出了由大語言模型 Gemini 支持的新版 Bard。于是乎,Ars Technica 再次策劃了兩大聊天機器人巨頭第二輪交鋒。谷歌這次可是有備而來,其宣傳材料上聲稱,Gemini Ultra 在 "32 項廣泛使用的學術基準測試中,有 30 項優于 GPT-4"。
在這次 PK 中,Ars Technica 的測試人員設計了一場 " 雙打比賽 ":讓 Gemini 支持的 Bard 分别與 ChatGPT-3.5(兩家公司目前的免費人工智能助手產品)和 ChatGPT-4 Turbo(OpenAI 目前的頂級付費訂閲產品)一較高下。而谷歌的頂級 "Gemini Ultra" 模型則還在摩拳擦掌,準備明年再戰江湖。同時,測試人員還回顧了 4 月份初代 Bard 模型的表現,以此衡量近幾個月來谷歌取得的進展。
雖然這些測試還只是冰山一角,但測試人員認為它們足以成為判斷這些人工智能助手在日常任務中表現的一個很好的基準。同時,它們也可以展示基于文本的人工智能模型在短時間内實現了多大的飛躍。
以下為參與測試的七個項目:
1. 老爹笑話
提示詞:寫 5 個原創的老爹笑話
在這次比拼中,這兩個參與測試的大語言模型(LLM)的表現都讓人有些失望。它們在面對 " 寫原創老爹笑話 " 這個挑戰時,似乎都有些力不從心。幾乎所有由這個提示生成的老爹笑話,都可以通過谷歌搜索找到原版,或者只是經過了簡單修改。Bard 和 ChatGPT-4 Turbo 甚至給出了完全相同的笑話(關于一本反重力的書),而 ChatGPT-3.5 和 ChatGPT-4 Turbo 在兩個笑話上重疊,分别是 " 科學家信任原子 " 和 " 稻草人獲獎 "。
不過,話又説回來,大多數老爹也不一定會講特别搞笑的段子。挑選經典老爹笑話這種事情,本來就是一種與爸爸們一樣古老的傳統。
在這輪比拼中,最有趣的發現來自 ChatGPT-4 Turbo。它生成了一個關于一個名叫布萊恩的孩子以托馬斯 · 愛迪生(Thomas Edison)的名義講述的笑話。在谷歌上搜索這個笑話并沒有出現太多相關重復信息,盡管它确實給出了一個幾乎相同的、關于托馬斯 · 傑斐遜(Thomas Jefferson)的笑話,裏面同樣有個名叫布萊恩的孩子。在搜索過程中,測試人員還發現了一個有趣的事實:國際足球明星貝利(Pelé)顯然被換成了托馬斯 · 愛迪生。這讓人不禁想笑,誰知道呢 ? !
赢家:在這場 PK 中,測試人員認為 Bard 與 ChatGPT 打成了平局,因為他們給出的笑話幾乎都是非原創的,裏面都有雙關語。
2. 參數對話框
提示詞:寫一篇關于 PowerPC 處理器和英特爾處理器的粉絲之間的 5 行辯論,大約 2000 字元。
由 Gemini 支持的新版 Bard 肯定比初代 Bard 給出的答案有了很大改進,至少在加入更多術語方面是這樣。新的答案包括偶然提到的 AltiVec 指令,RISC 與 CISC 設計以及 MMX 技術,顯然在這場辯論中更有説服力。雖然初代 Bard 以一句令人不安的禮貌語作為結尾,但新 Bard 更現實地暗示,在要求的五行之後,争論可能會永遠持續下去。
在 ChatGPT 方面,一個相當冗長的 GPT-3.5 答案在 GPT-4 Turbo 中被簡化為更簡潔的論點。兩個 GPT 的回答都傾向于使用通俗易懂的語言,将注意力集中在功能與兼容性的讨論上,這或許更有助于廣大閱聽人理解這場辯論的實質。
赢家:雖然 PowerPC 和英特爾的粉絲們在這場五行辯論中各展所長,但 ChatGPT 憑借其簡潔明了、易于理解的論述方式,成功解釋了雙方的論點。因此,在這場激烈的辯論中,ChatGPT 脱穎而出。
3. 數學應用題
提示詞:如果微軟 Windows 11 安裝在 3.5 英寸軟盤上,需要多少軟盤 ?
與老版 Bard 相比,獲得 Gemini 支持的新版 Bard 取得了驚人的進步。老版 Bard 給出了一個毫無意義的 "15.11" 軟盤的答案,而新的 LLM 正确地估計了 Windows 11 的大小(根據源代碼的不同大約是 20 GB 到 30 GB ) ,并且計算出所需的軟盤數量,大約需要 14223 個 1.44MB 軟盤。Gemini 系統還根據谷歌搜索進行了 " 雙重檢查 ",這有助于提高用户對答案的信心。
相比之下,ChatGPT 的答案略有不足。在 ChatGPT-3.5 中,系統大約在 2022 年 1 月的 " 知識更新 " 中,将 Windows 11 的安裝大小概括為 " 幾個 GB",系統甚至 " 假設 " 将其調至 10 GB。另一方面,GPT-4 Turbo 使用其大約 2023 年 4 月的知識,估計微軟作業系統的大小為 64 GB。這似乎是從微軟聲明的最小存儲需求中得出的,而不是作業系統在新安裝時實際使用的空間。不過,它對于 1GB 等于多少 MB 的解釋似乎有些誤解。GPT-3.5 将 10 GB 劃分為 100 億字節,這與 Bard 使用的解釋存在差異,GPT-4 Turbo 認為 1 GB = 1,024 MB。
赢家:Bard 在知識和數學技能上輕松獲勝。
4. 總結摘要
提示詞:用一段話概括(本文前三段文字)
新版 Bard 在印象分上占據了上風,因為它注意到文本是來自 Ars Technica 的一篇文章,并在顯眼的地方鏈接了一張卡片,上面有一張令人不安的威爾 · 史密斯吃意大利面的圖片。但是新版 Bard 的總結去掉了老版本的一些關鍵細節,比如視頻是由十個兩秒鍾的片段拼接而成的。雖然新版 Bard 的總結确實在一定程度上提高了可讀性,但這是以犧牲完整性為代價的。
ChatGPT 的摘要由于不夠簡潔而失去了一些分數:在 156 個單詞的原始文本中,ChatGPT 生成的摘要縮減為 99 個單詞(GPT-4 Turbo)和 108 個單詞(GPT-3.5),而初代 Bard 和新版 Bard 分别為 63 和 66 個單詞。不過,ChatGPT 的篇幅之所以更長,是因為它更全面地涵蓋了重要細節,比如媒體的反應以及原始海報和 Subreddit 的名字。
赢家:盡管測試人員很喜歡 Bard 的原文鏈接,但他們依然認為 ChatGPT 更勝一籌,因為其給出了更完整的總結。
5. 事實檢索
提示詞:誰發明了電子遊戲 ?
随着 Gemini 的更新,新版 Bard 在這個方面再次顯示出明顯的改進。老版本專注于拉爾夫 · 貝爾(Ralph Baer)的《棕色盒子》和馬格納沃克斯 · 奧德賽(Magnavox Odyssey)的作品(信息似乎直接來自維基百科),而新版 Bard 則準确而簡潔地指出了威廉 · 希金波坦(William Higinbotham)早期的《雙人網球》的貢獻。
接着,Bard 從 " 發明 " 一詞擴展到 " 對電子遊戲早期發展做出重大貢獻 " 的人物,如諾蘭 · 布什内爾(Nolan Bushnell)、泰德 · 達布尼( Ted Dabney)和艾爾 · 阿爾科恩(Al Alcorn)等,并提供了關于每個人的準确和相關信息。不過,Bard 在提到史蒂夫 · 喬布斯(Steve Jobs)和史蒂夫 · 沃茲尼亞克(Steve Wozniak)創造了 Apple II 的同時,卻遺漏了他們在雅達利早期的工作經歷。
GPT-3.5 和初代 Bard 一樣,提到了貝爾。雖然它提到 " 多年來,這個行業見證了各種個人和公司的貢獻 ",但它并沒有提到任何重要人物的名字。另一方面,GPT-4 Turbo 首先指出,電子遊戲 " 不能歸功于單個人 ",并将其總結擴展到希金波坦、布什内爾,最重要的是它提到了史蒂夫 · 羅素(Steve Russell)在 1962 年創造的《太空大戰》,它在 PDP-1 上運行。
赢家:在兩個免費版本機器人的比拼中,Bard 給出了比 GPT-3.5 更好的答案。但如果你訂閲了 GPT-4 Turbo,你會得到最好的人工智能生成答案。
6. 創意寫作
提示詞:寫一個關于亞伯拉罕 · 林肯(Abraham Lincoln)發明籃球的兩段創意故事。
雖然老版 Bard 因為一些令人回味無窮的寫作而得分,比如描述林肯回憶起小時候玩遊戲時微笑的表情,但因為回答的長度超過了提示要求的兩段話,所以扣了分。同時,第一段中從伊利諾伊州突然轉移到白宮的背景描述讓人感到困惑。新版 Bard 保持了同樣的風格,提出了一項可以團結人們的運動,更加簡潔和專注。
有趣的是,在 Ars Technica 測試中,GPT-3.5 是唯一一個将林肯想象成一個年輕人而不是坐在白宮裏焦躁不安的總統的智能模型。而 GPT-4 Turbo 是唯一一個明确提到林肯有 " 摔跤手經歷 " 的模型,指出他擁有更出色的運動能力。
測試人員也對 GPT-4 Turbo 的想法很感興趣,它稱林肯實際上是從白宮花園的 " 一群孩子 " 那裏竊取了投籃的概念。他們希望虛構的 " 誠實的亞伯拉罕 " 至少能給這些孩子們留下 " 比他的年齡更寶貴的遺產 "。
赢家:雖然老版 Bard 的故事有些明顯的不足,但所有其他模型都有其獨特的魅力和令人回味的言辭,因此這可以算是平局。
7. 編寫代碼
提示詞:編寫一個 Python 腳本,顯示 "Hello World",然後創建一個随機重復的字元串。
雖然 Bard 自今年 6 月以來已經能夠生成代碼,谷歌也一直在吹捧 Gemini 能夠幫助編碼人員使用其 AlphaCode 2 系統,但該系統在這次測試中卻表現不佳。對上述提示進行多天的反復試驗,讓 Bard 停機思考了 30 秒左右,然後給出一個模糊的錯誤提示:" 有些事情出了問題,Bard 只是實驗性的。" 至少,老版 Bard 坦率地承認,它還沒有接受過編寫代碼的訓練。
另一方面,ChatGPT 在 GPT-3.5 和 GPT-4 Turbo 模型下提供了相同的代碼。簡單,直接的代碼在測試中完美地工作,沒有經過任何額外編輯就通過了測試。
最後赢家:ChatGPT,但優勢不是很明顯
在對新老兩個版本的 Bard 進行比較時,谷歌人工智能生成的輸出質量有了明顯的進步。在本文的數學、總結、事實檢索和創意寫作提示中,谷歌的系統在距離上次測試後的八個月裏表現出了顯著的進步。
不過,總的來説,ChatGPT 在非科學測試中仍然是赢家。OpenAI 的系統在三場比試中險勝 Bard,而 Bard 只勝出了一場。但兩種聊天機器人的表現與 4 月份時相比要接近得多,測試人員認為有兩場比拼是平局,還有一場 PK 是 " 仁者見仁,智者見智 ",這取決于你是将 Gemini 與免費的 GPT-3.5 還是付費版 GPT-4 Turbo 進行比較。
當然,評判這樣的比賽存在主觀性因素,您可以通過查看上面的圖片庫來自己判斷結果。無論如何,我們都很有興趣看到:在不久的将來,像 Gemini Ultra 這樣即将推出的模型,或者可能集成 OpenAI 神秘 Q* 技術的新模型,将如何處理這些任務。(編譯 / 金鹿)