智源研究院：開源開放讓AI快速發展，要建設大模型時代的Linux

今天小編分享的科學經驗：智源研究院：開源開放讓AI快速發展，要建設大模型時代的Linux，歡迎閱讀。

ChatGPT 引爆了大模型，也徹底将大模型相關的 AI 產業生态帶到了新的階段——

大模型的 " 湧現能力 "，讓 AI 真正展現出了商業化潛力。

然而，也是在這一階段，想要跟上大模型浪潮的企業，也勢必要面對大模型應用所面對的諸多挑戰：

在面對不同行業的不同需求時，什麼參數量的大模型才是正确的選擇；當前大模型無法解決的幻覺，不同領網域又要如何應對……

作為一家長期致力于大模型研發的人工智能研究機構，智源研究院如何看待這一階段大模型的挑戰，又會如何應對這波 AIGC+ 大模型浪潮？

智源研究院副院長兼總工程師林詠華認為：

當下我們看到的更多是現象級 AI 應用，譬如 AIGC 文生圖、類 ChatGPT 多任務生成模型等，但更重要的是冰山之下的技術棧。

為了完整體現林詠華的思考，在不改變原意的基礎上，量子位對演講内容進行了編輯整理，希望能給你帶來更多啟發。

中國 AIGC 產業峰會是由量子位主辦的行業峰會，近 20 位產業代表與會讨論。線下參與觀眾 600+，線上收看觀眾近 300 萬，得到了包括 CCTV2、BTV 等在内的數十家媒體的廣泛報道關注。

話題要點

大模型已經從語言模型上升到認知模型。

大模型不僅要追求創新性，還要直視未來 10 年在產業落地過程中形成的新挑戰，包括參數量的選擇、訓練數據等。

過去 10 年，AI 快速發展，開源開放的作用不容忽視。

當前模型測評任務太簡單，需要用更難、更復雜的評測來拉動大模型的發展。

以下為林詠華演講全文：

大模型面臨哪些新挑戰？

今天我帶來的題目是《Why Large Model, Why Open Source》。

AI 浪潮在此前數十年三起三落，去年 " 大模型 +AIGC" 的發力，又激發 AI 浪潮從谷底衝至巅峰。

過去幾個月，媒體對 ChatGPT 的解讀已經很充分，而底層大模型是這一切的基座。随着 GPT-4 的發布，ChatGPT 構建在預訓練模型之上的對話式生成模型能力得到一個很大的躍進，就不在這裡贅述。

大模型的确出現了強大的泛化能力和湧現能力。它能通過人類不同專業領網域的考試，例如在美國大學預修課程 AP 考試中，GPT-4 在 15 門考試獲得 9 門 A、4 門 B，完全達到美國大學大學生的水平；在十多種不同領網域的專業考試中已超過人類平均水平。

可見，大模型已經從語言模型上升到認知模型。為什麼它可以產生這種能力？

2022 年，谷歌曾發表了一篇讨論大模型湧現能力的文章《Emergent Abilities of Large Language Models》，發現當模型參數量達到百億甚至以上時，在多種任務的 few shot 或者 zero shot 上展現了突出的湧現能力。

這也導致了 " 大煉大模型 " 現象的產生，伴随有兩個重要趨勢：一是模型參數越來越大，從 1 億參數到萬億參數的模型已經出現；另一個是模型正在從單模态變成多模态。

這意味着大模型不僅要追求創新性，還要直視未來 10 年在產業落地過程中形成的新挑戰：

第一，參數量的選擇。到底多大的參數量可以支持我們的應用需求？是要追求千億模型、還是百億模型就夠？

第二，海量的訓練數據。具體需要有多少訓練數據才足夠 " 喂飽 " 一個百億或者千億模型，又有多少信息可以傳遞到下遊任務？

第三，評估标準。當模型從單模态走向多模态、從語言模型走向認知模型，我們該怎麼評測？

第四，大模型持續學習和定點糾錯能力。如何讓超大規模的模型用較低成本繼續學習新的知識、吸納新的信息？當發現模型輸出有錯時，如何對基礎模型做到定點糾錯？

最後，很重要的一點是大模型的訓練效率、推理效率。

AIGC 的成功，需要大模型技術全棧的創新突破。

當下我們看到的是現象級 AI 應用，譬如 AIGC 文生圖、類 ChatGPT 多任務生成模型等，但更重要的是冰山之下的技術棧。

一方面，是各類重要的預訓練模型，包括語言預訓練模型、視覺通用模型、跨模态模型等；另一方面，對這些模型進行預訓練的方法，包括數據集、處理數據集的工具和大模型評測方法都至關重要。

此外，也離不開最下面的 AI 大模型系統技術，包括對訓練框架做并行優化、做平台調度優化、甚至用不同架構的 AI 加速芯片支持大模型訓練和推理，都需要投入。

智源如何應對大模型浪潮？

智源研究院專注發展冰山之下的大模型技術棧。

我們打造并開源了包括語言、視覺、圖文跨模态、文生圖在内的多個預訓練大模型，開放了中文等多個語言的上百個數據集及數據工具，并聯合多個研究隊伍、多家廠商一起，共同打造了 AI 基礎大模型的評測系統。

為了對 AI 大模型進行系統深入的研究，我們自建了九鼎 AI 大模型智算平台，包括英偉達和多種國產 AI 芯片集群，以針對大模型訓練進行多任務優化。

過去 10 年，AI 快速發展，開源開放的作用不容忽視，我們也不斷站在前人的肩膀上繼續前行。

作為中立、非營利研發機構，智源一直在大模型技術發展中保持開源開放的态度，圍繞大模型從底向上技術體系，把所有重要技術都通過開源與產業共享。

FlagOpen 正是我們和多家企業、高校共同傾力打造的大模型開源技術體系，可以類比為大模型領網域的 Linux。

其中，最核心的是 FlagAI 大模型算法、模型及工具一站式開源項目，包括智源自有的 " 悟道 " 系列大模型、以及各種全球流行的大模型新算法。

我們通過代碼整合和結構優化，為不同的大模型算法搭建統一的 pipeline，并與眾多主流的并行訓練優化技術進行整合，以提升大模型算法的可用性、降低大模型開發者的門檻。

大模型預訓練中的數據很重要，因此我們也開源了一整套 FlagData 數據工具開源項目。FlagData 中的數據清洗、過濾、壓縮還有分析等能力，可以幫助開發者高效搭建流程，促進產業發展。

此外，FlagEval 是面向基礎大模型的評測開源項目，而 FlagPerf 則是針對各種 AI 芯片的評測開源項目，當前我們也正聯合多個廠商一起，共同進行 AI 系統尤其是大模型的開源評測。

在構建大模型開源技術體系的過程中，智源致力于攜手多個廠商團隊，打造支持不同深度學習框架和異構芯片的軟體體系。

智源開源了哪些大模型？

這裡給大家舉一些例子，介紹智源過去幾個月已經開源的部分重要大模型。

首先是文圖表征模型。

随着 GPT-4 發布，多模态已經成為大模型的下一個制高點，而多模态模型十分依賴文圖跨模态預訓練基礎模型的性能。

一直以來，多語言文圖基礎模型的發展受制于訓練數據，即多語言文圖訓練數據量太少。例如，在最流行的 LAION-5B 文圖數據集中，英文的文圖對數據達到 95% 以上，而中文等語言數據太少了。

智源的 AltCLIP 多語言文圖表征模型，就針對多語言做了一系列算法創新，使得只用很少的數據就能構建出多語言的文圖預訓練大模型，并在所有語言上的性能達到 SOTA。

目前，AltCLIP-m9 已經支持包括英文、中文在内的九種語言，近期還将發布更多語言的版本，希望幫助更多國家用本土語言實現文圖方面的跨模态應用。

去年，我們基于自研的 AItCLIP-m9，開源了全球第一個多語言文圖生成大模型 AItDiffusion-m9。

用不同的語言來描述，它生成的圖會有些不同，例如用俄語輸入一個女孩的描述，大家可以看到女孩的頭像是俄羅斯風格的，而用阿拉伯語描述一籃水果，生成的花籃就是阿拉伯風格的。

不同的語言會生成帶有不同民族或國家特色的畫面，這也正是多語言文圖預訓練模型的重要能力。

智源在視覺方面也實現了重要進展，推出了 EVA 通用視覺編碼模型。

它在開放網域可以針對很多非常困難的長尾數據進行高質量識别。

普通視覺模型，一般只能做到幾十種物體的高質量識别和分割，但在開放領網域如在我們的生活世界裡，肯定不止幾十種物體，而這也是自動駕駛等領網域需要考慮的問題。

EVA 通用視覺編碼模型，能夠在超過 1000 個不同類别的長尾實例分割數據集 LVIS 上，大幅突破現有業界最優的性能。

另一項重要工作，是我們在今年開源的通用視覺解碼器 Painter。Painter 有兩大突破：

一方面，它真正意義上實現了一個統一多種下遊視覺任務的視覺模型，包括分類、目标識别、分割、關鍵點檢測等，在實現復雜視覺任務上方便了不少；

另一方面，它首創了在視覺領網域的 "In-context learning"，打破了當前依賴文本語言進行提示學習的單一性，未來将有可能為我們帶來更多 AI 的可能性。

大模型需要怎樣的評測技術？

随着大模型技術的快速迭代，相應的評測技術變得尤為重要。

在未來人工智能大模型時代，大多數企業不會自己從頭訓練一個模型，而會選用别人的模型，因此評測一定會成為推動大模型發展的關鍵。

給大家舉一個文圖跨模态大模型的例子，這裡有三種業界公認的評測任務，分别為低、中、高難度。

低難度的 cross-modal retrival 任務在 Flickr30k 評測集上面已經做到 90 分，基本超過人類，中難度的 zero-shot 圖片分類接近 70 分，也接近人類水平。

但在高難度的視覺 - 語言組合理解任務上，目前業界最好的這批跨模态語言模型也只能拿到 10 分上下的水平，距離人類的 80 分、90 分相差很遠。

我們認為，需要用更難、更復雜的評測來去拉動大模型的發展，而不是一直停留在低中難度。

因此，智源在 FlagEval 大模型評測開源項目中，發布了當前最為完整的文圖多模态大模型評測項目，涵蓋 12 種語言 7 大任務，包括剛才的低、中、高三種難度。

随着大模型技術發展，模型評測任務正面臨更大挑戰。

從過去的傳統 AI 模型評測集，到 2022 年斯坦福提出的 HELM（一個以理解能力評測為主的、針對語言大模型的整體系統化評測集），再到語言生成能力、認知能力、乃至人類思維能力等模型智能水平評測，如果持續推進下去，整個評測系統一定會發生翻天覆地的變化。

今年，智源牽頭和 30 多家企業、高校共同打造大模型技術基座，并做面向大模型的支撐平台和評測技術。這裡包括數據集及數據平台、基礎大模型技術評估體系及評測系統，還有開源開放的算法系統。

我們希望能盡快開放一套适合大模型評測的平台，并邀請更多團隊來參與評測、或是參與評測系統的構建。

智源作為人工智能領網域的新型研發機構，自 2020 年确定大模型研究戰略方向以來，不僅深耕大模型研究，在過去兩年推出全球領先的悟道大模型系列，而且也更加關注技術棧的開源開放，目标是協同更多開發者、企業和高校，一起打造适合國内甚至全球的大模型技術基座。

目前，智源已經聚集了一批全球技術領先的大模型研究團隊，希望更多人工智能領網域的有志之士加入我們，從底層的技術棧到先進的大模型，我們共同創造卓越。

同時，智源也堅持開放創新，希望通過跟整個產業的開源共創，共同打造大模型的全棧技術，謝謝大家！