今天小編分享的科學經驗:谷歌開源大模型Gemma帶來了什麼,原來“中國制造”的機會早已到來,歡迎閱讀。
谷歌罕見 open 的 AI,給開源大模型到底帶來了什麼?
Gemma從發布到現在已經時過四日,谷歌久違的這次開源,可謂是給全球科技圈投下了一枚重磅炸彈。
在最初發布之際,不論是從谷歌官方還是 Jeff Dean 的發文來看,都強調的是 Gemma 7B 已經全面超越了同量級的 Llama 2 和 Mistral。
在與此前最火熱的開源大模型 Llama 2 在細節上做比較,不論是在綜合能力,以及推理、數學和編程等能力上,完全屬于all win的狀态。
科技巨頭出品、全面對外開放、免費可商用、筆記本就能跑……各種福利标籤的加持之下,近乎讓全球的 " 觀眾老爺們 " 為之雀躍。
而就在最近,不少網友們也開始了對 Gemma 的各種測評。
例如有人就用 ollama 在 Macbook 上跑了一下 Gemma 7B,所做的任務是根據文章開頭的文字來判定文章的類型。
并在體驗過後給出了評價:
還比較穩定和準确!
還有網友在對 Gemma 和 Mistral 做了對比測試之後發現:
Gemma-7B 确實能正确回答 Mistral-7B 回答不了的問題。
由此種種表現,網友不禁發出感慨:
谷歌打破了開源大模型的格局:形成 Gemma、Llama 和 Mistral 三足鼎立之勢。
雖然成果足以令人振奮,但似乎在開源大模型這件事上,全球的目光都還是聚焦在了國外 " 頂流 " 們的身上。
随即而來的一個問題便是:
中國開源大模型,怎麼樣了?
在開源大模型領網域,除了歐美主流科技巨頭之外,中國 " 選手 " 也是長期占有一席之地。
那麼随着 Gemma 的問世,在榜單排名這件事上,是否又掀起了些許波瀾?
結果是有點意外的——
在 HuggingFace 的開源大模型排行榜裡,Gemma 排在了 7B 預訓練模型的第三名:
第一名和第二名均被國產大模型選手包攬——InternLM2(書⽣ · 浦語 2.0),由商湯科技和上海 AI 實驗室等部門聯合打造。
那麼新晉開源頂流 Gemma,是在哪些細節上失分的呢?
在看完平均得分情況之後,我們繼續來看下細分賽道的情況。
首先是在綜合能力(General)上,InternLM2-7B 的得分為 65.8 分,略高于 Gemma-7B。
其次是在推理能力(Reasoning)的 2 個基準中上,InternLM2-7B 拿到一勝一平的成績。
接下來是數學能力(Math),同樣是 2 個基準,InternLM2-7B 在 GSM8K 評測基準中大幅超過 16 分。
最後是編程能力(Code),InternLM2-7B 則是高出了整整 10 分。
若是将 Llama-2 7B 也放進來,那麼 InternLM2-7B 則是在各項做到了完勝。
不僅如此,即便是拿 7B 的 InternLM2 和更大體量的 13B Llama-2 做比較,在各項細抽成績中依舊是完勝。
更直觀一些,InternLM2 和 Gemma 之間的性能比較如下:
意外嗎?其實也并不意外。
因為國產開源大模型在 Gemma 發布之前,就已經在各種榜單中站穩了一席之地,而且還不是昙花一現的那種。
例如 InternLM2 就是于今年 1 月 17 日 " 出道 ",2 種參數規格、3 種模型版本,共計 6 個模型,全部免費可商用:
InternLM2-Base(7B、20B)
InternLM2(7B、20B)
InternLM2-Chat(7B、20B)
當時在與全球眾多 7B 量級選手的同台競技中,InternLM2 便以 " 大圈包小圈 " 的姿勢在性能上取得了一定的優勢。
而且在與 ChatGPT 的比較過程中,在重點能力上,例如推理、數學、代碼等方面是超越了 ChatGPT 的。
比如 InternLM2-Chat-20B 在 MATH、GSM8K 上,表現都超過 ChatGPT;在配合代碼解釋器的條件下,則能達到和 GPT-4 相仿水平。
InternLM2 還支持 200K 超長上下文,可輕松讀 200 頁财報。200K 文本全文範圍關鍵信息召回準确率達 95.62%。
例如在實際應用過程中,将長達 3 個小時的會議記錄、212 頁長的财報内容 " 投喂 " 給它,InterLM2 可以輕松 hold 住。
在不依靠計算器等外部工具的情況下,可進行部分復雜數學題的運算和求解。
例如 100 以内數學運算上可做到接近 100% 準确率,1000 以内達到 80% 準确率。
如果配合代碼解釋器,20B 模型已可以求解積分等大學級别數學題。
如何做到的呢?我們從研究團隊了解到,其所采取的策略關鍵并非是卷大模型的參數,而是在數據。
在團隊看來,提煉出一版非常好的數據後,它可以支持不同規格模型的訓練:
所以首先把很大一部分精力花在數據迭代上,讓數據在一個領先的水平。在中輕量級模型上迭代數據,可以讓我們走得更快。
團隊為此開發了一套先進的數據清洗和過濾系統,核心工作分為三個關鍵部分:
多維度數據價值分析:該系統通過評估數據的語言質量和信息密度等多個方面,對數據的價值進行全面分析和提升。例如,研究發現論壇網頁評論對模型性能的提升作用有限。
基于高質量語料的數據擴展:團隊利用高質量語料的特性,從現實世界、網絡資源和現有語料庫中收集更多相關數據,以進一步豐富數據集。
目标化數據補充:通過有目的性地補充語料,特别是強化世界知識、數學邏輯和編程代碼等領網域的核心能力,以提升數據集的深度和廣度。
如此 " 三步走 " 的系統設計便讓數據集得到了相應的優化,讓它更加豐富、準确,并更好地支持模型的訓練和應用。
當然,InternLM2 的開發不僅僅局限于提升模型的基礎性能,同時也緊跟當前的應用趨勢,對特定的下遊任務進行了性能增強。
例如,針對當前流行的超長上下文處理需求,團隊指出,在工具調用、數理推理等應用場景中,需要處理更長的上下文信息。
為了應對這一挑戰,InternLM2 通過擴大訓練視窗的容量和改進位置編碼技術,同時确保訓練數據的質量和結構化關系,成功地将上下文視窗的支持能力擴展到了 20 萬個 tokens。
如此一來,不僅提高了模型處理長文本的能力,也優化了整體的訓練效率。
這便是 InternLM2 從 " 出道 " 至今,即便是面對頂流 Gemma 依舊能夠穩坐榜首的原因了。
結語
最後,回答一下文章最開始的那個問題——
Gemma 給開源大模型到底帶來了什麼?
首先,是趨勢。
自從大模型的熱度起來之後,對于開源和閉源的話題也是一直在持續。
OpenAI 的 ChatGPT、GPT-4 等,所代表的就是閉源大模型,其所具備的實力也是有目共睹;而此前 Llama、Mitral 等則是開源大模型的代表。
谷歌作為 AI 巨頭,在此前大模型巨頭混戰中是略顯疲态的,畢竟作為對标產品的 Gemini,似乎也并未能撼動 OpenAI 的領先地位。
而此次谷歌罕見的開源了大模型、發布 Gemma,則是要以此來對标開源界的其它選手,并且從目前公布的成績來看,谷歌是取得了一定的優勢。
同時,從側面也反應出了,開源項目在大模型的發展中有着重要的作用。
其次,是信心。
或許很多人對于大模型的發展依舊停留或關注于國外主流的科技巨頭。
但從各種榜單、評測的數據上來看,中國的大模型同樣也具備很強的競争實力。
不僅僅是 InternLM2-7B 的開源模型,在不同參數體量的模型上,都有國產大模型選手在加入競争。
而且從結果上,已然是做到了中文和英文整體能力上的全面超越。
從這一點上來看,Gemma 的發布不僅是在開源大模型界新添強勢玩家這麼簡單,更是給中國開源大模型,甚至整個 AI 大模型行業都帶來了一份信心。
總而言之,從開年到現在短短 2 個月的時間,我們能夠非常直觀感受到的一點便是大模型的戰場是越發的熱鬧。
不論是國内國外、開源閉源,亦或是各種多模态,從 Gemini 到 Gemma,從 Sora 到 Stable Diffusion 3,各大科技廠商你追我趕的态勢愈演愈烈。
但有一點是較為明确的,那就是所有發布都在趨向于推理,趨向于如何把技術用起來。
因此,或許大模型在接下來的進程中,誰能讓自家的產品" 快好省 "地用起來,誰就能笑到最後。