今天小編分享的科技經驗:智源「悟道3.0」大模型系列問世,這次不拼參數,開源開放成為主角,歡迎閲讀。
機器之心報道
編輯:杜偉
現如今,大模型早已成為街談巷議的 AI 話題,ChatGPT 更火出了圈。NLP、CV 和多模态領網域的大模型層出不窮,并朝着通用方向不斷演進,讓人們看到了 AGI 的希望。
在大模型時代,除了繼續更新預訓練、微調等技術和算法之外,構建開源開放的大模型評測體系和生态同等重要。説來容易,但做起來很難。僅就開源而言,谷歌、OpenAI 等頭部 AI 企業對自己的大模型大多并沒有開源或僅開放 API 使用,正在逐漸形成壁壘。
在國内,作為最早系統化布局大模型的科研機構,北京智源人工智能研究院(以下簡稱智源)自 2021 年以來先後推出悟道 1.0、悟道 2.0 大模型系列,并連創「中國首個 + 世界最大」記錄。悟道 1.0 是我國首個超大規模智能模型系統,悟道 2.0 參數規模更是達到 1.75 萬億,成為當時中國首個、全球最大的萬億級模型。
6 月 9 日,在 2023 北京智源大會上,智源發布了完整的悟道 3.0 大模型系列,并進入到了全面開源的新階段。此次悟道 3.0 包含的項目有「悟道・天鷹」(Aquila)語言大模型系列、FlagEval (天秤)大模型語言評測體系以及「悟道・視界」視覺大模型系列。此外 FlagOpen 飛智也帶來了開源大模型技術體系最新進展。
智源研究院院長黃鐵軍教授發布悟道 3.0 大模型系列
作為大模型領網域年度巅峰盛會,智源大會至今已經舉辦了五屆,為加強產學研協同、促進國際交流與合作、打造世界人工智能學術高地做出了重要貢獻。本屆大會邀請到了圖靈獎得主 Geoffrey Hinton、Yann LeCun、Joseph Sifakis 和姚期智,OpenAI 首席執行官 Sam Altman、加州大學伯克利分校人工智能系統中心創始人 Stuart Russell、中國科學院張钹院士及中國工程院鄭南寧院士、 中國工程院外籍院士、美國藝術與科學院院士張亞勤、Midjourney 創始人 David Holz 等重磅嘉賓,共議人工智能前沿與熱點話題。
今年大會共同主席為智源研究院理事長張宏江,以及加州大學伯克利分校教授、智源學術顧問委員 Michael I. Jordan。共同程式主席為智源研究院院長黃鐵軍教授,以及清華大學教授、智源首席科學家朱軍。
時至今日,每年一度的智源大會已經成為促進國際人工智能生态發展的标志性活動,在人工智能精英人群中備受推崇,國際視野、專業前沿、思想激蕩,推動各方更好地把握住高速發展的人工智能大模型時代。
歷經 1.0、2.0,悟道 3.0 進入全面開源新階段
回望 2021 年 3 月和 6 月,智源在兩個多月時間裏先後發布了悟道 1.0 和悟道 2.0。彼時,AI 領網域進入到了「煉大模型」的階段,智源也集中力量打造能力達到 SOTA 的數十億乃至萬億參數大模型,以此對标、超越谷歌、OpenAI 等國外 AI 巨頭的超大規模大模型(如 GPT-3、Switch Transformer)。
不過自悟道 2.0 始,智源就不僅僅是研發模型。智源研究院院長黃鐵軍表示,智源更偏向于構建以大模型為核心的生态,包括底層數據處理和匯聚、模型能力和算法評測、開源開放,形成一套高效的大模型技術和算法體系。
因此在悟道 3.0 大模型系列中,智源發布并全面開源「悟道・天鷹」(Aquila)語言大模型系列和「悟道・視界」視覺大模型系列,與多個高校和科研院所合作構建 FlagEval(天秤)開源大模型評測體系與開放平台,加之 FlagOpen 飛智大模型技術開源體系,通過全方位的大模型技術、評測體系以及更廣泛的開源生态,服務于大模型行業發展。
悟道・天鷹 + 天秤,合力打造大模型能力與評測雙标杆
時至今日,随着模型規模的不斷增長,語言大模型已經變得非常「聰明」和「全能」。以 ChatGPT、GPT-4 為例,它們已經具備超強理解和推理能力,并在上下文學習(ICL)、思維鏈(CoT)等任務中出現了業界從未預測到的湧現能力。不過對于這些大模型,OpenAI 無一例外選擇不開源。
在悟道 3.0 大模型系列中,智源走出了一條不同的道路。智源發布了首個具備中英雙語知識、支持商用許可協定、支持國内數據合規要求的「悟道・天鷹」(Aquila)語言大模型系列,結合 FlagEval(天秤)開源大模型評測體系及開放平台,打造 " 大模型進化流水線 ",持續迭代、持續開源開放。
對于「悟道・天鷹」語言大模型系列,它包含了 Aquila 基礎模型(7B、33B)以及 AquilaChat 對話模型和 AquilaCode 文本 - 代碼生成模型。
開源地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
整體來看,「悟道・天鷹」Aquila 語言大模型在技術上繼承了 GPT-3、LLaMA 等的架構設計優點,替換了一批更高效的底層算子實現、重新設計實現了中英雙語的 tokenizer,更新了 BMTrain 并行訓練方法,訓練效率是 Magtron+DeepSpeed ZeRO-2 的近 8 倍。
此外在中英文高質量語料基礎上從0開始訓練,通過數據質量控制、多種訓練優化方法,在更小數據集、更短訓練時間下,實現比其他開源模型更優秀的性能。
「悟道・天鷹」Aquila 基礎模型。
AquilaChat 對話模型(7B、33B)是智源推出的類 ChatGPT 模型,它是一個單模态語言大模型,支持流暢的文本對話及多種語言類生成任務;通過定義可擴展的特殊指令規範,實現通過 AquilaChat 對其它模型和工具的調用,且易于擴展。例如,調用智源開源的 AltDiffusion 多語言文圖生成模型,實現了流暢的文圖生成能力。配合智源 InstructFace 多步可控文生圖模型,它還可以輕松實現對人臉影像的多步可控編輯。
文圖生成。
人臉影像多步可控編輯。
智源研究院副院長、總工程師林詠華表示,根據内部對 AquilaChat 的評測,其綜合能力能夠達到 GPT-4 的 70%左右,甚至在某些單項任務上的分數比後者更高。
AquilaCode-7B 是智源推出的文本代碼生成大模型。它的預訓練代碼語料來源是一個由 Huggingface 牽頭創建的數據集 The Stack,初始版本涵蓋了 30 種主流編程語言,數據量超過 3T。智源基于該代碼數據集進行抽取、質量過濾,并最終使用超過 200GB 的數據進行訓練。
與 OpenAI 編碼大模型 Codex-12B 相比,AquilaCode HumanEval pass@1 上的結果接近,并在近期有望超越。更重要的是,智源 AquilaCode 的參數量不到 Codex-12B 的 1/2,做到了用更小的模型實現了接近後者的評測結果。與 DeepMind AlphaCode 1B 、CodeGeeX 等一系列開源代碼模型相比,智源 AquilaCode 都已經明顯超越。
得益于 Aquila 基礎模型的強大能力,AquilaCode-7B 模型在使用更少訓練數據和訓練參數的情況下,成為目前支持中英雙語、性能最好的開源代碼模型。如下為代碼生成動圖演示示例:
AquilaCode-7B 同時支持不同芯片架構的模型訓練,并分别在英偉達和國產芯片上完成了代碼模型的訓練,推動芯片創新和百花齊放。
可信可靠、全面客觀的大模型評測體系
建立大模型評測體系至關重要。一方面在學術上可以拉動大模型創新,構建衡量大模型能力和質量的尺子。另一方面在產業上,對于絕大多數無力研發和構建大模型尤其是基礎大模型的企業而言,他們在選擇使用大模型時更需要一個可信可靠、全面客觀的評測體系。
FlagEval(天秤)希望通過建立科學、公正、開放的評測基準、方法、工具集,協助研究人員全方位評估基礎模型及訓練算法的性能。同時探索利用 AI 方法實現對主觀評測的輔助,大幅提升評測的效率和客觀性。FlagEval(天秤)評測平台已經開放,提供在線和離線評測目前已支持英偉達、寒武紀、昆侖、昇騰等多種芯片架構,以及 PyTorch、MindSpore 深度學習框架。
開放地址:http://flageval.baai.ac.cn
大模型評測并不容易。林詠華指出了面臨的四大難點,一是快速發展的大模型給評測帶來了越來越大的挑戰,以往語言模型評測更多是從理解能力出發;二是大模型生成能力的評測主要依賴人類評分,不僅效率低,客觀性及評測質量很難保持一致;三是現在大模型趨向于認知模型,但認知邊界很難确定,用人類考題評測模型認知能力往往易出現偏差;四是有時需要在一些情況下考慮大模型的心智能力,包括對復雜意圖、復雜場景的理解以及情緒和鑑别能力,這些更加難以評測。
FlagEval(天秤)創新性地構建了「能力 - 任務 - 指标」的三維評測框架,細粒度地刻畫基礎模型的認知能力邊界,呈現可視化評測結果。目前提供 30 + 能力、5 種任務、4 大類指标共 600 + 維全面評測,任務維度當前包括 22 個主客觀評測數據集和 84433 道題目,更多維度的評測數據集正在陸續集成。天秤還将持續探索語言大模型評測與心理學、教育學、倫理學等社會學科的交叉研究,以期更加科學、全面地評價語言大模型:
目前 FlagEval 已經覆蓋語言、多模态兩大領網域的大模型評測,後續覆蓋視覺、語音領網域。第一期已推出大語言模型評測體系、開源多語言文圖大模型評測工具 mCLIP-Eval 和開源文圖生成評測工具 ImageEval。下圖為 mCLIP-Eval 的評測演示。
FlagEval 首創可持續大模型評測輔助模型訓練新範式,打造自動化評測與自适應評測結合的機制,幫助模型研發團隊實現 " 以評測結果為指導 " 的高效訓練。這種新範式實現了以大模型評測帶動訓練的效果。" 是騾子是馬 " 只有評測比較過後才更有説服力。
FlagEval(天秤)面向的人群包括大模型開發者和使用者,前者将模型接入系統進行自動評測,後者則可以是個人、高校和企業。就價值而言,大模型的全面評測衡量可以幫助各個開發團隊了解自身模型薄弱之處,推動進一步技術創新。此外全面客觀的評測還能加速大模型產業落地步伐。
FlagEval(天秤)大語言評測體系及開放平台是「科技創新 2030」旗艦項目重要課題,合作共建部門包括北大、北航、北師大、北郵、閩江學院、南開等高校和中科院自動化所、中國電子技術标準化研究院等科研院所,定期發布權威評測榜單。
「悟道・視界」向着通用視覺邁進
與語言大模型一樣,視覺大模型近年來也進入了井噴階段。對于視覺領網域涵蓋的分類、定位、檢測和分割等多種任務,既出現了在某項任務上實現極致效果的大模型(如面向分割任務的 SAM、SEEM),也有追求一舉解決多個或全部 CV 任務的通用視覺大模型(如 Meta 的 DINOv2)。
此次智源發布了「悟道・視界」視覺大模型系列,由悟道 3.0 的視覺大模型團隊打造,涵蓋了國際領先的六大成果,包括在多模态序列中補全一切的多模态大模型 Emu、最強十億級視覺基礎模型 EVA、性能最強開源 CLIP 模型 EVA-CLIP、首創了「上下文影像學習」技術路徑的通用視覺模型 Painter、一通百通、分割一切的視界通用分割模型、以及首個零樣本視頻編輯方法 vid2vid -zero。前五個為基礎模型,後一個為應用技術。
「悟道・視界」聚焦視覺和多模态上下文學習,創新視覺和多模态領網域的 Prompt 工程,取得了零樣本學習性能的新突破。未來的應用可以拓展到自動駕駛、智能機器人等領網域,為這些領網域帶來更多可能性和創新。
首先是一個接受多模态輸入、產生多模态輸出的多模态大模型 Emu。
通過學習圖文、交錯圖文、交錯視頻文本等海量多模态序列,實現在影像、文本和視頻等不同模态間的理解、推理和生成。
訓練完成後,Emu 能在多模态序列的上下文中補全一切,實現多輪圖文對話、視頻理解、精準影像認知、文圖生成、多模态上下文學習、視頻問答和圖圖生成等多模态能力。
然後是最強十億級視覺基礎模型 EVA[1]。通用視覺大模型在更高效的同時也要更簡單, 這就必須解決視覺問題的兩大關鍵點:語義學習和幾何結構學習。
因此 EVA 結合最強語義學習(CLIP)和最強幾何結構學習(MIM),只使用标準 ViT 模型的情況下将規模擴大到了十億參數進行訓練,在 ImageNet 分類、COCO 檢測分割、Kinetics 視頻分類等廣泛的視覺感知任務中取得當時最強性能。該研究被接收為 CVPR 2023 highlight 論文。
EVA 及性能概覽。
再者是性能最強的 CLIP 模型 EVA-CLIP。CLIP(Contrastive Language-Image Pre-training)是一種視覺 - 語言基礎模型, 具有強大的零樣本遷移能力,并有可能增強多模态和單模态視覺任務。并且作為零樣本學習基礎模型,多模态預訓練 CLIP 廣受業界認可。
EVA-CLIP 是一系列提高 CLIP 訓練效率和效果的模型,基于通用視覺模型 EVA 開發,結合了新的表示學習以及優化、增強技術,可以降低訓練成本、穩定訓練過程和提升零樣本性能。智源視覺團隊于 2022 年發布了 EVA-CLIP 1B 版本,并于 2023 年初發布了 EVA-CLIP 5B 版本 [ 2 ] ,創造了零樣本學習性能新水平,超越了此前最強的 OpenCLIP 模型,在 ImageNet1K 零樣本 top1 達到最高的 82.0% 準确率。
此外,EVA-CLIP 相比其他方法更高效,做到了更少時間、更低成本。例如訓練 EVA-CLIP-B/16,在 32K batch size 設定下,用 16 個英偉達 40GB-A100 的 GPU 卡,80 小時就能完成 30 億圖文對的訓練。
圖左為 CLIP 模型(EVA-CLIP 和 OpenCLIP)的 ImageNet-1K 零樣本分類性能比較,圖右為 EVA-CLIP 在 27 個數據集上的零樣本分類性能。
接着是一通百通、分割一切的視界通用分割模型(即 SegGPT),它是智源通用視覺模型 Painter 的衍生模型。
Painter 首創「上下文影像學習」技術路徑,具備了較強的上下文學習能力。用户輸入 prompt 即可完成對應視覺任務。該研究[3]同樣被 CVPR 2023 會議接收。
基于 Painter,視界通用分割模型 [ 4 ] 在影像分割領網域點亮視覺 GPT 曙光。它與 Meta 的分割一切模型(SAM)同一時間發布,不過二者采用的方法不同。SAM 側重一觸即通, 通過一個點或邊界框,在待預測圖片上給出互動提示并識别分割畫面上的指定物體。視界充分利用其強大的視覺上下文推理能力,只需提供一個或幾個示例影像和視覺 prompt,模型即可自動推理并「有樣學樣」完成類似分割任務,具體可見如下示例。
标注出一個畫面中的彩虹(上),即可批量化分割其他畫面中的彩虹(下)。
從影像中分割出各種各樣的對象,是視覺智能的關鍵裏程碑,而視界、SAM 等分割模型的推出加速了向通用視覺的發展。對此,黃鐵軍指出,影像或視頻分割只是「視界」通用視覺模型的外在表現能力之一。當未來應用到自動駕駛和機器人等更復雜的通用視覺場景時,「視界」非常有潛力憑借其分割一切以及強大的分辨能力加速這些實體智能產業的發展。
最後是零樣本視頻編輯技術 vid2vid-zero [ 5 ] 。除了影像領網域的生成、編輯任務之外,智源同樣探索高效、低成本的自動視頻編輯技術。已有文本驅動的視頻編輯方法嚴重依賴在大量文本 - 視頻數據上調整預訓練好的視頻擴散模型,因而需要龐大的計算資源,導致人工數據标注和計算成本頗高。
對此智源提出了這種簡單高效的零樣本視頻編輯方法,亮點在于首次無需對視頻進行額外訓練,利用注意力機制動态運算的特點,結合現有影像擴散模型,實現可指定屬性的視頻編輯。對于現實世界的視頻,該方法在編輯屬性、主題和地點等方面都展現出了很好的效果。
你只需要上傳一段視頻,然後輸入編輯文本 prompt,就能得到 AI 美化的創意大片。如下為一個動圖演示示例,圖左為原始視頻(一個跑步的男子),圖右為編輯文本 prompt 後的生成視頻(一個在紐約跑步的男子)。可以看到,生成視頻不僅增加了一些元素,風格也發生了改變(動漫風格)。
與「悟道・天鷹」(Aquila)語言大模型系列一樣,所有這些「悟道・視界」視覺大模型都向公眾開源。
用開源開放打造不一樣的大模型品牌
前段時間,一位谷歌研究人員在泄露的内部檔案中表示,在大模型時代,雖然看起來是 OpenAI 和谷歌你追我趕,但悄然崛起的第三方力量或許将成為真正的赢家。這個第三方力量就是開源。無論是開源模型、算法還是開源社區,它們的力量正在踏破大模型門檻。
作為一個非盈利的平台型研究機構,智源始終通過開源開放的方式發布系列大模型,包括數據集、算法、工具等。此次全面開源的悟道 3.0 大模型系列更充分展現出了智源堅持開源開放的決心。林詠華表示,智源希望以開源開放為出發點打造大模型基礎底座,促進大模型科研創新,加速產業落地。其中開源更是采用商用許可協定,避免數據和算法等社會資源的浪費。
與此同時,智源正在通過 FlagOpen 飛智大模型技術開源體系踐行着開源開放的理念。這套開源體系涵蓋了大模型算法、模型、數據、工具和評測等重要組成部分。
FlagOpen 開源平台入口:https://flagopen.baai.ac.cn/#/home
其中 FlagAI 大模型算法開源項目是 FlagOpen 的核心部分,集成了全球各種主流大模型算法技術。語言大模型 OPT、T5、視覺大模型 ViT、Swin Transformer 以及多模态大模型 CLIP 等多個領網域明星模型都在該項目中收錄。在本次智源大會,悟道・天鷹 Aquila 語言大模型已經加入到 FlagAI 的開源倉庫。随後,悟道 3.0 視覺基礎模型 EVA、視覺通用多任務模型 Painter 等将陸續開源至 FlagAI。
FlagOpen 開源體系還包括面向多種 AI 硬體的一體化評測引擎 FlagPerf、上文介紹的多領網域多維度開源大模型評測體系 FlagEval、開箱即用且易于擴展的數據工具開源項目 FlagData、應用文生圖和文生音樂等 AI 模型支持藝術創作的開源項目集合 FlagStudio、基于 Scala 開發的輕量級高并發微服務框架 FlagBoot。
此外 FlagOpen 開源體系正逐步實現對多種深度學習框架、AI 芯片的完整支持,構建更繁榮的 AI 大模型軟硬體生态。總之,在人工智能下個十年,智源希望以該開源體系為基礎,用開源的力量打造屬于大模型時代的「新 Linux 生态」。
通往 AGI 沒有那麼簡單,但并非不可實現
在 AI 大模型時代,通用人工智能(AGI)無疑是一個逃不開的話題。尤其自近半年來 OpenAI 先後發布 ChatGPT、GPT-4 以來,很多人都認為 AGI 的大門已經被敲開。通用語言大模型已展現出的超強理解、推理以及湧現能力,真的就能通向 AGI 嗎?
在黃鐵軍看來,ChatGPT 等語言大模型的确可以説敲開了 AGI 的大門,它們湧現出的未曾預測到的新能力在某種意義上是 AGI 的一個典型标志。但他也表示,敲開門并不意味着沿着這條路走下去,就一定能實現 AGI。未來 AGI 的實現僅憑大模型顯然是不夠的,還需要更多技術要素的加入。
在通往 AGI 的漫漫征途中,智源非常注重大模型、類腦智能和具身智能這三條路線。三條路線并不是孤立的,它們相互作用和影響。
首先是最快取得階段性突破的大模型。得益于藴含豐富知識和智能的海量高質量數據,大模型迎來了裏程碑式的進展即湧現能力,復雜 AI 系統首次自發出現這樣的智能現象,成為 AGI 的第一道曙光。但是大模型路線并沒有解決 AGI 的所有問題,其湧現出的能力與人腦中的靈感、頭腦風暴有着根本差别。想要達到類似于生物或人腦的巧妙智能,僅靠大模型遠遠不夠。這就需要在類腦方向繼續發展,包括基礎的神經網絡結構、信号加工機理等等。
大模型、類腦智能之外的另一個方向是大家談論較多的具身智能,通過強化學習方法,利用物理實體與環境互動,得到經驗和教訓,不斷調整自身策略。在解決一些真實世界的問題時,必須與環境進行互動。以自動駕駛和機器人為例,物理實體在復雜的環境中感知和行動,最終完成任務。大模型是沒有具身的,因此具身智能勢必要繼續發展。
黃鐵軍認為,三條路線對于未來的 AGI 發展都是必要的,解決一個問題并不意味着所有問題都迎刃而解。未來必定困難重重且過程注定漫長,三條路線距離終極目标或許仍是「咫尺天涯」。但他對最終實現 AGI 持樂觀态度,通過各種各樣的方法一步步逼近并最終達到目标。
未來,智源将繼續扮演好自己的角色,作為致力于全球領先大模型技術和算法的推出者、大模型及人工智能生态的建設者,始終為國内大模型的技術創新和產業落地發光發熱。
參考文獻:
[ 1 ] https://arxiv.org/search/cs?searchtype=author&query=Fang%2C+Y, etal. EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
[ 2 ] Quan Sun, etal. EVA-CLIP: Improved Training Techniques for CLIP at Scale
[ 3 ] Xinlong Wang, etal. Images Speak in Images: A Generalist Painter for In-Context Visual Learning
[ 4 ] Xinlong Wang, etal. SegGPT: Segmenting Everything In Context
[ 5 ] Wen Wang, etal. Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models
© THE END
轉載請聯系本公眾号獲得授權
投稿或尋求報道:[email protected]