今天小編分享的科學經驗:智源研究院:開源開放讓AI快速發展,要建設大模型時代的Linux,歡迎閱讀。
ChatGPT 引爆了大模型,也徹底将大模型相關的 AI 產業生态帶到了新的階段——
大模型的 " 湧現能力 ",讓 AI 真正展現出了商業化潛力。
然而,也是在這一階段,想要跟上大模型浪潮的企業,也勢必要面對大模型應用所面對的諸多挑戰:
在面對不同行業的不同需求時,什麼參數量的大模型才是正确的選擇;當前大模型無法解決的幻覺,不同領網域又要如何應對……
作為一家長期致力于大模型研發的人工智能研究機構,智源研究院如何看待這一階段大模型的挑戰,又會如何應對這波 AIGC+ 大模型浪潮?
智源研究院副院長兼總工程師林詠華認為:
當下我們看到的更多是現象級 AI 應用,譬如 AIGC 文生圖、類 ChatGPT 多任務生成模型等,但更重要的是冰山之下的技術棧。
為了完整體現林詠華的思考,在不改變原意的基礎上,量子位對演講内容進行了編輯整理,希望能給你帶來更多啟發。
中國 AIGC 產業峰會是由量子位主辦的行業峰會,近 20 位產業代表與會讨論。線下參與觀眾 600+,線上收看觀眾近 300 萬,得到了包括 CCTV2、BTV 等在内的數十家媒體的廣泛報道關注。
話題要點
大模型已經從語言模型上升到認知模型。
大模型不僅要追求創新性,還要直視未來 10 年在產業落地過程中形成的新挑戰,包括參數量的選擇、訓練數據等。
過去 10 年,AI 快速發展,開源開放的作用不容忽視。
當前模型測評任務太簡單,需要用更難、更復雜的評測來拉動大模型的發展。
以下為林詠華演講全文:
大模型面臨哪些新挑戰?
今天我帶來的題目是《Why Large Model, Why Open Source》。
AI 浪潮在此前數十年三起三落,去年 " 大模型 +AIGC" 的發力,又激發 AI 浪潮從谷底衝至巅峰。
過去幾個月,媒體對 ChatGPT 的解讀已經很充分,而底層大模型是這一切的基座。随着 GPT-4 的發布,ChatGPT 構建在預訓練模型之上的對話式生成模型能力得到一個很大的躍進,就不在這裡贅述。
大模型的确出現了強大的泛化能力和湧現能力。它能通過人類不同專業領網域的考試,例如在美國大學預修課程 AP 考試中,GPT-4 在 15 門考試獲得 9 門 A、4 門 B,完全達到美國大學大學生的水平;在十多種不同領網域的專業考試中已超過人類平均水平。
可見,大模型已經從語言模型上升到認知模型。為什麼它可以產生這種能力?
2022 年,谷歌曾發表了一篇讨論大模型湧現能力的文章《Emergent Abilities of Large Language Models》,發現當模型參數量達到百億甚至以上時,在多種任務的 few shot 或者 zero shot 上展現了突出的湧現能力。
這也導致了 " 大煉大模型 " 現象的產生,伴随有兩個重要趨勢:一是模型參數越來越大,從 1 億參數到萬億參數的模型已經出現;另一個是模型正在從單模态變成多模态。
這意味着大模型不僅要追求創新性,還要直視未來 10 年在產業落地過程中形成的新挑戰:
第一,參數量的選擇。到底多大的參數量可以支持我們的應用需求?是要追求千億模型、還是百億模型就夠?
第二,海量的訓練數據。具體需要有多少訓練數據才足夠 " 喂飽 " 一個百億或者千億模型,又有多少信息可以傳遞到下遊任務?
第三,評估标準。當模型從單模态走向多模态、從語言模型走向認知模型,我們該怎麼評測?
第四,大模型持續學習和定點糾錯能力。如何讓超大規模的模型用較低成本繼續學習新的知識、吸納新的信息?當發現模型輸出有錯時,如何對基礎模型做到定點糾錯?
最後,很重要的一點是大模型的訓練效率、推理效率。
AIGC 的成功,需要大模型技術全棧的創新突破。
當下我們看到的是現象級 AI 應用,譬如 AIGC 文生圖、類 ChatGPT 多任務生成模型等,但更重要的是冰山之下的技術棧。
一方面,是各類重要的預訓練模型,包括語言預訓練模型、視覺通用模型、跨模态模型等;另一方面,對這些模型進行預訓練的方法,包括數據集、處理數據集的工具和大模型評測方法都至關重要。
此外,也離不開最下面的 AI 大模型系統技術,包括對訓練框架做并行優化、做平台調度優化、甚至用不同架構的 AI 加速芯片支持大模型訓練和推理,都需要投入。
智源如何應對大模型浪潮?
智源研究院專注發展冰山之下的大模型技術棧。
我們打造并開源了包括語言、視覺、圖文跨模态、文生圖在内的多個預訓練大模型,開放了中文等多個語言的上百個數據集及數據工具,并聯合多個研究隊伍、多家廠商一起,共同打造了 AI 基礎大模型的評測系統。
為了對 AI 大模型進行系統深入的研究,我們自建了九鼎 AI 大模型智算平台,包括英偉達和多種國產 AI 芯片集群,以針對大模型訓練進行多任務優化。
過去 10 年,AI 快速發展,開源開放的作用不容忽視,我們也不斷站在前人的肩膀上繼續前行。
作為中立、非營利研發機構,智源一直在大模型技術發展中保持開源開放的态度,圍繞大模型從底向上技術體系,把所有重要技術都通過開源與產業共享。
FlagOpen 正是我們和多家企業、高校共同傾力打造的大模型開源技術體系,可以類比為大模型領網域的 Linux。
其中,最核心的是 FlagAI 大模型算法、模型及工具一站式開源項目,包括智源自有的 " 悟道 " 系列大模型、以及各種全球流行的大模型新算法。
我們通過代碼整合和結構優化,為不同的大模型算法搭建統一的 pipeline,并與眾多主流的并行訓練優化技術進行整合,以提升大模型算法的可用性、降低大模型開發者的門檻。
大模型預訓練中的數據很重要,因此我們也開源了一整套 FlagData 數據工具開源項目。FlagData 中的數據清洗、過濾、壓縮還有分析等能力,可以幫助開發者高效搭建流程,促進產業發展。
此外,FlagEval 是面向基礎大模型的評測開源項目,而 FlagPerf 則是針對各種 AI 芯片的評測開源項目,當前我們也正聯合多個廠商一起,共同進行 AI 系統尤其是大模型的開源評測。
在構建大模型開源技術體系的過程中,智源致力于攜手多個廠商團隊,打造支持不同深度學習框架和異構芯片的軟體體系。
智源開源了哪些大模型?
這裡給大家舉一些例子,介紹智源過去幾個月已經開源的部分重要大模型。
首先是文圖表征模型。
随着 GPT-4 發布,多模态已經成為大模型的下一個制高點,而多模态模型十分依賴文圖跨模态預訓練基礎模型的性能。
一直以來,多語言文圖基礎模型的發展受制于訓練數據,即多語言文圖訓練數據量太少。例如,在最流行的 LAION-5B 文圖數據集中,英文的文圖對數據達到 95% 以上,而中文等語言數據太少了。
智源的 AltCLIP 多語言文圖表征模型,就針對多語言做了一系列算法創新,使得只用很少的數據就能構建出多語言的文圖預訓練大模型,并在所有語言上的性能達到 SOTA。
目前,AltCLIP-m9 已經支持包括英文、中文在内的九種語言,近期還将發布更多語言的版本,希望幫助更多國家用本土語言實現文圖方面的跨模态應用。
去年,我們基于自研的 AItCLIP-m9,開源了全球第一個多語言文圖生成大模型 AItDiffusion-m9。
用不同的語言來描述,它生成的圖會有些不同,例如用俄語輸入一個女孩的描述,大家可以看到女孩的頭像是俄羅斯風格的,而用阿拉伯語描述一籃水果,生成的花籃就是阿拉伯風格的。
不同的語言會生成帶有不同民族或國家特色的畫面,這也正是多語言文圖預訓練模型的重要能力。
智源在視覺方面也實現了重要進展,推出了 EVA 通用視覺編碼模型。
它在開放網域可以針對很多非常困難的長尾數據進行高質量識别。
普通視覺模型,一般只能做到幾十種物體的高質量識别和分割,但在開放領網域如在我們的生活世界裡,肯定不止幾十種物體,而這也是自動駕駛等領網域需要考慮的問題。
EVA 通用視覺編碼模型,能夠在超過 1000 個不同類别的長尾實例分割數據集 LVIS 上,大幅突破現有業界最優的性能。
另一項重要工作,是我們在今年開源的通用視覺解碼器 Painter。Painter 有兩大突破:
一方面,它真正意義上實現了一個統一多種下遊視覺任務的視覺模型,包括分類、目标識别、分割、關鍵點檢測等,在實現復雜視覺任務上方便了不少;
另一方面,它首創了在視覺領網域的 "In-context learning",打破了當前依賴文本語言進行提示學習的單一性,未來将有可能為我們帶來更多 AI 的可能性。
大模型需要怎樣的評測技術?
随着大模型技術的快速迭代,相應的評測技術變得尤為重要。
在未來人工智能大模型時代,大多數企業不會自己從頭訓練一個模型,而會選用别人的模型,因此評測一定會成為推動大模型發展的關鍵。
給大家舉一個文圖跨模态大模型的例子,這裡有三種業界公認的評測任務,分别為低、中、高難度。
低難度的 cross-modal retrival 任務在 Flickr30k 評測集上面已經做到 90 分,基本超過人類,中難度的 zero-shot 圖片分類接近 70 分,也接近人類水平。
但在高難度的視覺 - 語言組合理解任務上,目前業界最好的這批跨模态語言模型也只能拿到 10 分上下的水平,距離人類的 80 分、90 分相差很遠。
我們認為,需要用更難、更復雜的評測來去拉動大模型的發展,而不是一直停留在低中難度。
因此,智源在 FlagEval 大模型評測開源項目中,發布了當前最為完整的文圖多模态大模型評測項目,涵蓋 12 種語言 7 大任務,包括剛才的低、中、高三種難度。
随着大模型技術發展,模型評測任務正面臨更大挑戰。
從過去的傳統 AI 模型評測集,到 2022 年斯坦福提出的 HELM(一個以理解能力評測為主的、針對語言大模型的整體系統化評測集),再到語言生成能力、認知能力、乃至人類思維能力等模型智能水平評測,如果持續推進下去,整個評測系統一定會發生翻天覆地的變化。
今年,智源牽頭和 30 多家企業、高校共同打造大模型技術基座,并做面向大模型的支撐平台和評測技術。這裡包括數據集及數據平台、基礎大模型技術評估體系及評測系統,還有開源開放的算法系統。
我們希望能盡快開放一套适合大模型評測的平台,并邀請更多團隊來參與評測、或是參與評測系統的構建。
智源作為人工智能領網域的新型研發機構,自 2020 年确定大模型研究戰略方向以來,不僅深耕大模型研究,在過去兩年推出全球領先的悟道大模型系列,而且也更加關注技術棧的開源開放,目标是協同更多開發者、企業和高校,一起打造适合國内甚至全球的大模型技術基座。
目前,智源已經聚集了一批全球技術領先的大模型研究團隊,希望更多人工智能領網域的有志之士加入我們,從底層的技術棧到先進的大模型,我們共同創造卓越。
同時,智源也堅持開放創新,希望通過跟整個產業的開源共創,共同打造大模型的全棧技術,謝謝大家!