今天小編分享的互聯網經驗:百模大戰開啟,AI進入路線之争?,歡迎閱讀。
圖片來源 @視覺中國
钛媒體注:本文來源于微信公眾号DoNews(ID:ilovedonews),作者 | 因客,編輯 | 楊博丞,钛媒體經授權發布。
大模型戰場再起波瀾。
搜狗搜索創始人王小川創立的百川智能發布了旗下第三款大模型產品 Baichuan-53B,據介紹其訓練參數高達 530 億。而百川智能也放出風聲,後續還會有多款產品發布。再加上科大訊飛的星火大模型更新、馬上消費致力解決金融行業大模型在落地過程中的安全可控和隐私保護、基礎設施能力建設等關鍵問題的大模型呼之欲出,進入八月後的人工智能大模型賽道再掀高潮。
那麼,如此熱鬧的市場中,到底具備了哪些特質的大模型才最具前景,哪些困難又是當前無法跨越的,都是當前需要好好研究的方向。
百模大戰開啟,市場要多熱鬧有多熱鬧
自從 ChatGPT 爆火之後,入局大模型已經成為各大科技公司的首選。據《中國人工智能大模型地圖研究報告》顯示,截至 2023 年 5 月底,國内 10 億級參數規模以上基礎大模型至少已發布 79 個,而在下半年,包括科大訊飛、阿裡等頭部玩家也将發布最新產品,戰場進一步更新幾乎成為定局。
實際上,這輪百模大戰甚至可以追溯到到 2020 年。當年美國就已推出了 15 款大模型,其中就包括 GPT-3。而中國随後在 2021 年也推出了 30 款大模型,2022 年更是推出了 28 款大模型,進入 2023 年,前 5 個月更是高達 19 款大模型面試,增速可見一斑。據數據統計,中美兩國大模型的數量占全球大模型數量的近 90%,兩極之勢已經形成。
回到國内,大模型廠商幾乎是當前國内頂級科技公司、機構的清單名錄:百度、騰訊、阿裡、商湯、華為迅速入局,智源研究院、中科院自動化所也步後塵,如此态勢下更帶動一大批腰部公司入場,集群效應顯著。
大模型規模化增長之下,據 IDC 預測,2026 年中國 AI 大模型市場規模将達到 211 億美元,人工智能将進入大規模落地應用關鍵期。
因此,對于任何大模型來說,想要在亂局之下突圍,都不是容易的事,打赢戰役的基礎之一就是糧草充足。據媒體報道,由于訓練成本過高,ChatGPT 的開發公司 OpenAI 仍然在 2022 年出現 5.4 億美元左右的虧損。OpenAI 首席執行官 Sam Altman 還表示,該公司必須籌集多達 1000 億美元的資金,才能滿足不斷上漲的成本。
頭部大模型公司燒錢尚且不足,更不用說其他玩家了。但另一方面,投資熱度降低也是行業内不争的事實。根據媒體統計的數據,在國内市場,從 ChatGPT 發布到現在,在 AI 大模型賽道融資事件只有 21 起。其中大多數明星獨角獸企業,不是入局早具有先發優勢,就是有機構大佬的背書,占盡資源才沒有顯得過于狼狽。
另外,需要注意的是,留給大模型講故事的領網域看似很多,但真正講好的少之又少。連知名投資人都表示,行情再火,也要捂好自己的錢包,畢竟好的标的實在難找。從實際情況看也是如此,大牌廠商力推通用大模型,力圖走赢家通吃的互聯網路線,當下發力在整合資源層面的模型居多;而中小廠商,主打一個錯位競争,力圖通過在細分領網域的深耕,分得屬于自己的一杯羹。
充滿朝氣但混亂的大模型之争,看似熱鬧卻也暗流湧動,套用一句台詞形容,當下可謂是 " 風浪越大,魚越貴 " 的階段。
數據投喂的噱頭下,繞不開成本這道難題
當前大模型想要吸引眼球,數據投喂的量級從來都是大做文章的環節。梳理大模型發展的歷史,你會看到參數規模增長的誇張曲線。
在國外,2018 年,谷歌提出了大規模預訓練語言模型 BERT,該模型是基于 Transformer 的雙向深層預訓練模型,其參數首次超過 3 億規模;2019 年,OpenAI 繼續推出 15 億參數的 GPT-2,但馬上英偉達推出了 83 億參數的 Megatron-LM,谷歌推出了 110 億參數的 T5,微軟推出了 170 億參數的圖靈 Turing-NLG,都搶走了 OpenAI 的風頭。
2020 年,OpenAI 推出了超大規模語言訓練模型 GPT-3,參數達到 1750 億,而微軟和英偉達聯手跟進,在 2020 年 10 月聯手發布了 5300 億參數的 MegatronTuring 自然語言生成模型。2021 年 1 月,谷歌推出的 Switch Transformer 模型以高達 1.6 萬億的參數量成為史上首個萬億級語言模型。
在國内,2021 年,商湯發布了書生大模型,擁有 100 億的參數量;2021 年 4 月,華為雲聯合循環智能發布盤古 NLP 超大規模預訓練語言模型,參數規模達 1000 億,聯合北京大學發布盤古 α 超大規模預訓練模型,參數規模達 2000 億。
進入 2022 年,基于清華大學、阿裡達摩院等研究成果以及超算基礎實現的 " 腦級人工智能模型 " 八卦爐完成建立,其模型參數規模突破了 174 萬億個,直接拉高了入局門檻。
海量數據投喂的意義在哪裡?大通用性、泛化性是其追求的核心要求,那些以互聯網赢家通吃思維入局的各大廠商,殺入通用大模型,也正是由于其手握海量數據,具有先天優勢可以進行資源整合。
但是,對大模型來說,真的是數據越多越好嗎?
首選,就是成本問題。昆侖萬維 CEO 方漢認為," 超過千億級别的大模型,訓練需要投入的人力、電力、網絡支出等投入,一年至少 5000 萬美金到 1 億美金。" 如果這一測算成真,那顯然大模型只能是有錢人的遊戲。
但其實,在當下的眾多垂直領網域,大模型的身影也無處不在。而這些領網域的一個共性特征就是:投喂數據并非天文數字。
這是為什麼?垂直領網域下,行業數據更加精準,因此十億級别參數甚至更少的數據,都可以支撐模型實現效果,自然花費的成本也更低廉。從這個角度解釋,教育、法律、金融等行業大模型的出現,也是因為行業形成共識:錢在這個遊戲中,并不是萬能的。
錯位競争,腰部大模型的生存要義
通用大模型走下神壇,與其表現出來的落地障礙有關,360 集團副總裁彭輝總結為七點:缺乏行業深度、不懂企業、數據安全隐患、知識更新不及時、" 胡說八道 "、投入巨大、無法訓練進大模型的核心知識的保證所有權等。
而另一邊,垂直大模型卻如雨後春筍一般出現。
8 月 9 日,網易有道推出 " 子曰 " 教育大模型首次落地的硬體產品——有道詞典筆 X6 Pro,新增虛拟人口語教練 Echo,可實現多輪英語對話。此外還有互動問答、語法精講功能,待機時長 100 天,起售價 1399 元。
内容層面上,首次引進經典教輔品牌《五年高考 · 三年模拟》,不局限于查詞本身,詞典筆還能做全科一對一輔導。
而在網易有道之前,學而思已經宣布正在進行自研數學大模型的研發,命名為 MathGPT,面向全球數學愛好者和科研機構;而在五月,淘雲科技宣布推出兒童認知大模型——阿爾法蛋兒童認知大模型,為孩子在練表達、塑情商、啟創造、助學習等方面帶來全新互動體驗。
除去教育,其他垂直領網域的大模型也層出不窮:今年 4 月,知乎正式發布 " 知海圖 AI" 中文大模型,知乎創始人、董事長兼 CEO 周源表示:" 知乎以應用層和數據層的獨特優勢,将致力于為中文互聯網的大語言模型添磚加瓦。";7 月,攜程發布首個旅遊行業垂直大模型 " 攜程問道 ",攜程集團董事局主席梁建章表示,希望用戶從包括 " 攜程問道 " 在内的產品中獲得旅遊行業 " 可靠的内容,放心的推薦 "。京東緊随其後發布言犀大模型,其宣傳稱:" 沉澱了京東在零售、物流、健康、金融等行業多年積累的知識,融合 70% 通用數據與 30% 京東數智供應鏈原生數據進行訓練,帶來了商品推薦、金融政策、理财規則、物流體驗等領網域的能力。"
如此種種,讓我們需要好好面對一個問題:垂直大模型,為什麼火?
首先,大模型變小,成本控制更容易。與通用大模型動辄萬億級别的參數投喂,垂直大模型往往在十億量級的參數訓練就能有效果,而其數據要求的專業性、精确性,也比通用大模型囫囵吞棗般的投喂要有針對和效率,進而折射出資金、算立等資源利用率的差異。
其次,垂直大模型在解決數據安全隐患、缺乏行業深度等問題方面更具優勢。以 AI 制藥行業對大模型的需求為例,由于藥物研發對高精度實驗數據的獲取成本較高,且公開數據庫中有大量無标注數據,對于通用大模型而言使用這類數據投喂,顯然是 " 吃的是奶,產出來的什麼都不是 " 的風險。對于需要利用好大量無标注數據,又要利用好少量高精度數據的需求,垂直大模型顯然是更好的選擇。
最後,垂直大模型是商業創意實現的溫床。在通用大模型的模式下,大、廣、全是其追求的方向,這勢必造成大模型之間功能同質化問題的出現。而垂直大模型在投入上本來就低,更适合小公司切入進來。
而小公司想要在市場中立足,在沒有資源、沒有實力的情況,勢必要從商業創業與服務上做文章,說到底,定制化的服務,只要能創造足夠的價值,永遠不會缺乏市場。
百模大戰,看起來箭在弦上了。