今天小編分享的科技經驗:chatgpt o1滿血版上線!實測中它竟然敗給了國產AI?,歡迎閲讀。
當地時間 12 月 5 日,OpenAI 正式上線 ChatGPT 的 o1 和 o1-Pro 兩個新的 AI 模型。其中 o1 模型實際上大家之前已經用過了,只是那時候還叫 o1-preview,僅開放了 o1 模型的部分功能,如今新版本去掉了 preview,也意味着 o1 模型的滿血版終于正式上線。
圖源:雷科技
從簡單的測試來看,滿血版的 o1 模型已經支持圖片和檔案上傳,而此前是只能進行文字輸入,也就是新增了多模态理解,不過網頁搜索功能仍未上線,這點倒是讓人感到遺憾。
對于 o1 滿血版的提升,OpenAI 的 CEO 奧特曼用一個簡單的柱狀圖給出了對比:可以看到 o1 在數學推理和編程領網域的表現要明顯優于 o1-preview,提升幅度在 50% 左右,而在科研領網域的測試裏,o1 相對于 o1-preview 的表現就提升有限了。
圖源:OpenAI
考慮到 o1 模型不需要額外加錢就能使用,對于有需求的用户來説還是很超值的,只是 OpenAI 這次醉翁之意不在酒,相較于免費更新的 o1,全新的 o1-pro 才是重頭戲。不過,想要用上 o1-pro,得訂閲新的 200 美元套餐才能優先使用,這也是目前 AI 領網域中針對個人用户的最昂貴訂閲方案。
從 OpenAI 給出的性能對比圖來看,o1-pro 在 o1 的基礎上确實有所精進,但是提升幅度并不大,對于普通用户來説,o1 模型就完全可以滿足日常使用了,壓根沒有必要為了 o1-pro 訂閲 200 美元的套餐。
當然,200 美元套餐提供的不只是 o1-pro,還有無限制使用 o1 模型和高級語音功能的權限(o1-pro 不在此列,估計使用次數仍有上限),如果你覺得 o1 的提問額度完全不夠用,那麼 200 美元的套餐就是個人用户的唯一選擇了。
既然有了新的模型,那麼肯定是要來測試一下的。雷科技此次測試主要還是針對 o1 滿血版的多模态能力,同時也請來了兩位國產 AI 友情參賽(kimi 和文心一言)。
o1 模型的強項在于數學等方面的高級推理,那麼就先從擅長的地方開始,一道并不算困難的數學計算題:
假設一個公司生產某種商品,生產成本與產量的關系為 C ( x ) = 3x^2 - 2x + 5(部門:萬元),其中 x 是產量(部門:千件)。市場售價與產量的關系為 P ( x ) = 50 - 0.5x(部門:萬元 / 千件)。
1. 求該公司生產 x 千件商品時的總利潤函數 L ( x ) 。
2. 确定該公司應生產多少千件商品以實現最大利潤,并計算最大利潤是多少。
首先看看國產 AI 的回答:
kimi
文心一言
國產 AI 都給出了相同的答案:188.14 萬元,那麼再來看看 chatgpt-o1 的。
o1
o1 模型給出的答案也是 188.14 萬元,與問題本身的标準答案一致,三個 AI 都通過了測試。不過大家從回答的截圖裏,其實也能看出不同,o1 模型展示了大量的推算過程,更方便用户檢查推理的過程是否正确。
這也與 o1 模型的主要用途有關,本質上 o1 模型上為科研等用途設計的,所以在展示答案的時候會更注重于推理過程及正确性,而非只輸出正确的答案。
接下來我們試試直接用圖片進行提問,可以讓我們輸入一些比較抽象的數學題,比如一道來自小學四年級的奧林匹克競賽題:
還是慣例先看看國產 AI 的回答:
兩個國產 AI 分别給出了 A 和 B 的選項,其中 kimi 的推理過程非常長,直接把這道小學奧數題以高等數學的方式進行了解析。
下面看看 o1 模型的回答:
o1 模型給出的答案也是 B,那麼是否説明 kimi 算錯了?答案并不是,這道題的正确答案其實是 A,換言之 o1 和文心一言都算錯了。文心一言因為沒有給出詳細推理過程,所以無法看出是在哪一步算錯了,而 o1 模型顯然是在分析圖片時,錯誤的判斷了圖形的集合數量,最終導致答案推理錯誤。
在這個問題上,其實就可以看出 AI 大模型在處理類似的圖形問題時,解題的思路是不同的,文心一言和 o1 都試圖通過直接找出圖片的規律來計算答案,也就是類似于人類解題時的思路,而 kimi 則是直接将圖形等式轉化為方程式,然後進行計算。
從效率來説,o1 和文心一言的推理方式肯定是更節省算力的,但是如果分析拆解能力沒有跟上,那麼就會像這次一樣得出錯誤的答案,而 kimi 的推理過程雖然會耗費更多的算力,但是也保證了答案的準确度。
站在企業角度來看,為了提高推理效率并降低推理成本,采用圖形推理方案自然是最佳選擇。但是考慮到 o1 本身的高級模型屬性,以及 OpenAI 給出的科研助手定位,如果還為了節省算力而給出錯誤的答案,恐怕就難以説服用户了。
下面再來看看編程方面的表現,題目并不算難:
我想制作一個軟體,這個軟體可以每個小時檢查一次電腦的網絡連接狀态,如果網絡連接中斷就重啓電腦,如果網絡連接正常就保持現狀
兩個國產 AI 都很快就給出了答案:
因為要求很簡單,簡單測試後虛拟機都提示成功運行。不過,可以看到兩個國產 AI 的回答有些許不同,kimi 在代碼中用灰色字體進行了注釋,而文心一言則是通過額外的注意事項進行提醒,并且還提醒要安裝運行庫,并給出了更多的編程建議。
那麼 o1 模型呢?答案如下:
從 o1 模型的回答來看,它是分三個部分完成的回答,首先給出實現思路,然後給出示範代碼并進行注釋,最後再對代碼的編寫過程進行分析,同時提供了測試思路和備選方案,算是集中了兩個 AI 各自的優勢,對于初學者來説,o1 模型的體驗或許會更好一些。
從生產力的角度來説,o1 模型在特定領網域的表現确實出色,但是國產 AI 的表現也不算差,其中 kimi 更是讓人感到驚喜,是唯一答對全部測試題目的 AI。
測試到這裏,本來可以告一段落了,不過我還想看看在日常領網域,o1 模型的表現和普通模型又會有什麼區别呢?
所以,我又出了一道附加題,從網絡上搜索了一個草莓餡餅的照片,然後詢問 AI 如何制作照片裏的甜點。
三個 AI 都很輕松識别出了甜點的類型,并且給出了相似的配方,不過 o1 模型的回答則是詳細到了每一個步驟的操作方式和注意事項,相對來説國產 AI 的步驟説明就簡單很多了。如果是有一定烘培經驗的人,國產 AI 的菜譜是夠用了,但是對于一個新手來説,o1 模型的菜譜成功率顯然會高很多。
總體來看,o1 模型在回答的細致度等方面确實有着明顯的優勢,在一些需要查看推理過程或者得到更詳細回答的場景中體驗會好很多。但是從答案的準确度來看,o1 對比目前的國產 AI 其實也沒有多少優勢,表現還不如 kimi。
而且國產 AI 也可以通過追問等方式,得到更詳細的回答和推理過程,o1 模型在多數場景下其實都沒有明顯的優勢,比如我在日常使用 chatgpt 時,很多時候 chatgpt-4o 就可以滿足需求,只有極少數情況下會用到 o1 模型。
作為一個 chatgpt 的長期用户,我認為 o1 模型其實更适合科研人員及金融分析師等職業,他們在日常工作中會用到大量數學工具并進行多次推理。此時,o1 模型那經過針對性訓練的多步驟推理流程,在解決這些問題時表現會比普通 AI 好不少。
至于 o1-pro,其實從我查詢到的其他用户測試結果來看,回答的質量與 o1 模型并沒有太大區别,兩者的差距主要是 o1-pro 可以調用更多的算力,反復驗算答案的正确性,并且嘗試給出更詳細的推理過程。
實際上 AI 大模型發展到現在的階段,其實又開始出現細分化的苗頭,在此之前不少 AI 企業都希望去打造一個大而全的多模态模型,但是卻發現成本很高且效果并不算好,諸如「幻覺」等問題一直難以解決。
而 chatgpt-o1 無疑給出了另一個解法,在算力足夠的情況下,可以讓 AI 先對問題進行一次深度的「思考」,再根據思考的結果去進行推算。你可以這麼去理解,o1 是先嘗試分析問題本身,再根據分析結果去解決問題,而普通 AI 則是直接對問題進行關鍵詞拆解,然後根據算法調用對應的數據并組合輸出,這種方式雖然回應速度快,但是回答的準确度卻難以保證,特别是面對一些復雜的問題時。
所以,我們可以看到 kimi 和文心一言其實也在通過不同的方式去讓 AI 學會「思考」,而不是根據算法和數據強行組合答案。kimi 的表現更是給我留下了深刻的印象,作為數學測試環節唯一回答全對的選手,無需付費就可以使用,性價比和體驗都拉滿了。
老實説,如果不是為了方便查詢外文資料和關注 AI 的最前沿,chatgpt 的 20 美刀訂閲性價比确實不高,免費的 kimi 和提供多種智能體及官方工具,更具有泛用性的文心一言都是更具性價比的選擇。