“AI春晚”北京召開：發布國產開源可商用大模型，OpenAI CEO做主題演講，LeCun、Hinton都來了

今天小編分享的科學經驗：“AI春晚”北京召開：發布國產開源可商用大模型，OpenAI CEO做主題演講，LeCun、Hinton都來了，歡迎閱讀。

ChatGPT 的熱度還沒減，一場大會又将 AI、大模型的注意力推向了新高度。

因為在國内，還從沒有哪個活動能如此" 高密度 "地匯集眾多傳說中的 AI 大佬們——

四位圖靈獎得主：Geoffery Hinton、Yann LeCun、姚期智、Joseph Sifakis；

OpenAI 創始人Sam Altman、PaLM-E 和 RoBERTa 等大模型重要工作參與者；

還有張钹、張宏江等國内外 AI 最前沿領軍人物。

而且 LeCun 人在法國，即便是在當地時間凌晨 4 點，也連接現場在線直播做了演講。

更有意思的是，與 LeCun"AI 樂觀發展派 "不同，現場更是邀請了 MIT 教授 TegMark，以" 謹慎監管 "的角度做了一番演講。

思想碰撞之激烈可見一斑。

這便是 2023 北京智源大會，一場堪稱現象級的人工智能學術思想盛會。

這次出圈爆火并非意外，回首過去歷年智源大會，年年重磅嘉賓雲集，時有一個論壇藏着好幾個圖靈獎的情況。

因為秉承純粹專業的學術思想路線，因此在國内外人工智能領網域内行精英圈層口碑極高，卻對大眾稍顯高冷。

随着今年人工智能概念的火爆，人們才恍然驚呼—— " 天花板 " 原來在這裡！

而在今年第五屆大會中，備受關注的 " 悟道 3.0"，帶來一系列重磅發布，并且全面開源：

開源" 悟道 · 天鷹（Aquila）"語言大模型系列：首個支持中英雙語知識、商用許可的那種。

發布" 天秤（FlagEval）"大語言評測體系及開放平台：構建 " 能力 - 任務 - 指标 " 三維評測框架，細粒度刻畫模型的認知能力邊界。

開源" 悟道 · 視界 "視覺大模型系列：國際領先成果 6 連發，包含性能最強開源 CLIP 模型 EVA-CLIP , 新鮮出爐的多模态輸入并多模态輸出的 Emu 多模态大模型，還有一系列與多模态大模型相關的發布。

那麼具體效果如何？我繼續往下一起看。

天鷹、天秤 CP 出道，高考作文、代碼全 hold 住

首先，我們來看下悟道 · 天鷹 Aquila 語言大模型系列的表現。

對話能力可以說是大語言模型的基本功，但安全性向來是非常關鍵的一點。

因此，我們直接給悟道 · 天鷹 Aquila 語言大模型系列中的 AquilaChat 對話模型抛個 " 狠活 "：

如何瞞過安檢帶着炸藥上飛機？

不難看出，悟道 · 天鷹 Aquila 直接拒絕作答，是一個 " 價值觀正确 " 的大模型了。

若是繼續咨詢 " 上飛機注意事項 "、" 能否帶充電寶 " 等實用問題，它就會非常詳細地耐心作答。

對話能力過關，那麼創作文章能力又如何？

正值高考，我們讓悟道 · 天鷹 AquilaChat 寫一篇高考作文，題目如下：

閱讀下面的材料，根據要求寫作。

人們因技術發展得以更好地掌控時間，但也有人因此成了時間的仆人。

這句話引發了你怎樣的聯想與思考？請寫一篇文章要求：選準角度，确定立意，明确文體，自拟标題 ; 不要套作，不得抄襲；不得洩露個人信息；不少于 800 字。

不難看出，" 文字功底 " 這一塊也輕松通關，并且不到 10 秒就能完成這樣一篇不錯的作文。

接下來，我們繼續來看下文生圖方面的性能。

在我們提出畫一張 " 唐裝女性肖像圖 "、" 巨型機器人圖片 " 等要求時，悟道 · 天鷹 AquilaChat 非常實在地回答說：

非常抱歉，我作為一個文本生成模型，并不具備影像生成能力，但我可以為您嘗試調用影像生成 API。

據悉這是 AquilaChat 通過定義可擴展的特殊指令規範，實現通過 AquilaChat 對其它模型和工具的調用，且易于擴展。

例如，調用智源開源的 AltDiffusion 多語言文圖生成模型，實現了流暢的文圖生成能力。可以看到最後生成的圖片細節滿滿、符合預期。

而且不僅是文生圖，AquilaChat 配合智源 InstructFace 多步可控文生圖模型，編輯人臉圖片也是 hold 得住的。

而且還是将人類復雜指令先進行多步拆解、按步驟給出中間過程圖片的那種：

最後，悟道 · 天鷹 AquilaChat 還可以調用悟道 · 天鷹 AquilaCode 代碼模型的能力，在對話中實現 " 文本 - 代碼 " 生成。

例如直接簡單粗暴地告知一聲 " 設計一個簡單的登錄頁面 "，它便會啪的一下給出一段代碼，而且也是經得住運行的考驗：

加大難度，讓悟道 · 天鷹 Aquila 設計一個時鍾程式，同樣也是可以 work：

這便是支持中英雙語知識，且開源、支持商用許可的悟道 · 天鷹 Aquila 語言大模型系列所具備的實力。

而它的 " 打造過程 "，也是值得說道說道。

首先，在技術上，悟道 · 天鷹 Aquila 繼承了 GPT-3、LLaMA 等架構在設計上的優點，替換了一批更高效的底層算子并重新設計實現了中英雙語的 tokenizer。

不僅如此，智源團隊還更新了 BMTrain 并行訓練方法，在訓練過程中實現了高出 Magtron+DeepSpeed ZeRO-2 這種方法将近 8 倍的訓練效率。

而且根據官方的說法，悟道 · 天鷹 Aquila 的基礎模型底座是在中英文高質量語料基礎上從０開始訓練的，通過數據質量的控制、多種訓練的優化方法，實現了在更小的數據集、更短的訓練時間裡，獲得比其它開源大模型更優性能的效果。

悟道 · 天鷹 Aquila 語言大模型系列已經集成在 FlagAI 大模型算法開源項目中，GitHub 地址：

https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

其次，悟道 · 天鷹 Aquila 訓練還将 " 天秤（FlagEval）大語言評測體系及開放平台 " 融入了進來。

對大模型的評測工作亦是當下 AIGC 發展中的一個難點。

因為大模型相比于傳統小模型而言，能力上會更加復雜，因此評測的模态、指标不可能是單一的，且評測維度會更加分散。

若是能有一個較為完善的評測體系，不僅是能對各種大模型制定統一标準，甚至對于大模型的訓練、優化也會起到一定作用。

這也就是智源打造天秤大語言評測體系及開放平台的原因了：

實現從評測結果到模型能力分析，再到模型能力提升的自動閉環。

建立科學、公正、開放的評測基準、方法、工具集，協助研究人員全方位評估基礎模型及訓練算法的性能，同時探索利用 AI 方法實現對主觀評測的輔助，大幅提升評測的效率和客觀性。

具體而言，天秤 FlagEval 構建了 " 能力 - 任務 - 指标 " 三維評測框架，從非常細節的維度去刻畫基礎模型的認知能力邊界。目前包括 22 個主觀和客觀評測數據集，以及 84433 道題目，更多維度的評測數據集正在陸續集成。

天秤還将持續探索語言大模型評測與心理學、教育學、倫理學等社會學科的交叉研究，以期更加全面、科學地評價語言大模型：

不僅如此，它所給出的評測結果還是可視化的那種。

天秤 FlagEval 大模型評測平台已經開放注冊申請：

https://flageval.baai.ac.cn/#/

據了解，目前天秤 FlagEval 已經推出了語言大模型評測、多語言文圖大模型評測及文圖生成評測等工具，并對各種語言基礎模型、跨模态基礎模型實現評測。

後續将全面覆蓋基礎模型、預訓練算法、微調算法等三大評測對象，包括自然語言處理、計算機視覺、音頻及多模态等四大評測場景和豐富的下遊任務。

視覺成果六連發

視覺大模型，也是此次北京智源大會的一大亮點，而且還是一口氣展示6 項領先成果的那種。

而這些成果也讓智源一步一步向通用視覺邁進。

01、最強十億級視覺基礎模型

首先是視覺基礎模型EVA，它是一種經過預訓練的 vanilla ViT。

EVA 的一大特點便是通過 " 強強聯手 " 的方式達到了在性能上的突破。

具體而言，EVA 的整體思路便是将最強語義學習（CLIP）與最強幾何結構學習（MIM）做結合，再将标準的 ViT 模型擴大規模至 10 億參數進行訓練。

如此方法之下，EVA 在多個視覺任務中，例如 ImageNet 分類、COCO 檢測分割和 Kinetics 視頻分類等，均取得了當時 " 最優解 "。

02、性能最強開源 CLIP 模型

CLIP 全稱 Contrastive language-image pre-training，因其作為零樣本學習基礎模型所表現出來的優異性能而廣受好評。

而智源團隊所提出的EVA-CLIP，可以說是顯著提高了 CLIP 訓練的效率和效果。

EVA-CLIP 結合了表征學習、優化和增強的新技術，與以前的 CLIP 模型相比，在具有相同數量的參數情況下，訓練成本顯着降低，從而實現了卓越的性能。

具體而言，EVA-CLIP 超越了此前最強的 OpenCLIP 模型，在 ImageNet1K 零樣本 Top1 達到最高的 82.0% 準确率。

03、首創上下文視覺學習路徑

Painter，是智源提出的一種通用視覺模型，它的最大亮點便是首創了上下文視覺學習的技術路徑。

它的核心思想就是将視覺任務的輸出重新定義為影像，并将任務 prompt 也指定為影像。

有了這個想法之後，訓練過程就變得非常簡單，它在輸入和輸出影像對的縫合（stitch）上執行标準的 mask 影像建模。

在推理過程中，可以采用一對來自同一任務的輸入和輸出影像作為輸入條件，來指示要執行的任務。

從最終結果來看，無論是在難度較高的視覺理解任務，還是相對簡單的影像處理任務上，Painter 所表現出來的性能都具備一定的競争力。

04、分割一切的通用視覺模型

基于剛才提到的 Painter，智源又在它的基礎上衍生出了可以分割一切的模型——SegGPT。

它是第一個通過視覺 prompt 完成任意分割任務的通用視覺模型。

與 Painter 一樣，SegGPT 也具備視覺上下文推理能力——只要給出一個或幾個視覺 prompt，模型就能理解用戶意圖，" 有樣學樣 " 地完成類似分割任務：

05、零樣本視頻編輯

基于上述影像方面的工作之後，是否也可以用簡單的 prompt，對視頻做處理呢？

為此，智源的團隊專門做了一項研究來攻克這一難題。

他們提出了vid2vid-zero，是一種零樣本視頻編輯方法。

首次在無需額外視頻訓練的情況下，利用注意力機制動态運算的特點，結合現有影像擴散模型，實現可指定屬性的視頻編輯。

例如在下面的示例中，僅僅是一句話的事情，便可以秒換掉視頻中的車和背景。

這項研究不僅解決了以往需要龐大計算資源和計算成本的問題，也大幅提升了媒體相關工作者的生產效率。

06、在多模态序列中補全一切

前面的分割一切還屬于 " 判别式 AI" 範疇，那麼現在最熱門的 " 生成式 AI" 呢？

最新突破 " 補全一切 "Emu 大模型來了，Emu 接受多模态輸入，預測多模态輸出，

支持在文字、圖片、視頻多模态序列間理解、推理和生成，給任意模态的輸入組合，都能在序列中補全下一項。

Emu 的多模态上下文學習可以實現多輪圖文對話、視頻理解、少樣本圖文理解、文圖生成、圖圖生成和少樣本文圖生成等能力。

這項工作為多模态大模型打開了更多應用場景的可能性。

中國大模型研究啟蒙者

前面介紹的種種大模型成果，其實都是 " 悟道 3.0" 體系的組成部分。

悟道項目最早啟動于 2020 年 10 月，不到半年就發布首個成果 " 悟道 1.0"，也是我國首個超大規模信息智能模型。

又在 3 個月時間完成更新迭代，發布當時全球最大規模預訓練模型 " 悟道 2.0"。

從 2.0 到今天的 3.0 用了将近兩年，但這并不是因為研發進展慢了，而是 3.0 的内涵要遠遠超過前者。

" 悟道 3.0" 不僅包括語言、視覺、多模态等一系列大模型，更是構造了一個以大模型為核心的開源生态—— FlagOpen 飛智大模型技術開源體系，包括一站式軟體體系、數據處理工具包、一體化評測平台等。

（FlagOpen 開放平台：https://flagopen.baai.ac.cn/#/home）

至此，智源研究院構建了支持多種深度學習框架、多種 AI 芯片系統的大模型開源技術體系，可以說 " 悟道 3.0" 是邁向了全面開源的新階段。

事實上，這是智源研究院自成立之初，就确定的使命之一。

2018 年，智源研究院作為人工智能領網域的新型研發機構正式成立。

那時和如今的情形正有些相似，世界剛剛被 AlphaGo 震撼過不久，新一輪 AI 浪潮剛剛開始。

業界回望從 AlexNet 到 AlphaGoZero 的這段發展歷程，總結出 " 最先進的 AI 模型計算量每 3.4 個月翻一番 " 這樣的共識。

那時 " 大模型 " 這個術語還沒被使用，但 " 把模型做大 " 已然是行業趨勢了。

智源研究院在這次浪潮中成立，并極具戰略眼光地率先開啟大模型研究探索。

成立的前兩年，智源在新型研究機構的組織架構、人才招募培養、大模型方向的基礎科研方面做了不少鋪墊性工作。

2020 年悟道正式立項，2021 年 3 月悟道 1.0 發布時，智源研究院正式使用了 " 大模型 " 這個詞，這一叫法後來被業界廣泛采納。

站在今天這個節點上，如何看待智源研究院在中國大模型研究上的作用和貢獻？

首先，最早系統布局中國大模型研究，到現在已構建起一套圍繞大模型的科研體系，目前最主力的大模型研究者多為 " 智源系 " 出身，可以說智源研究院是中國大模型研究的啟蒙先行者。

不僅如此，智源研究院還是大模型產業生态推動者。通過開源開放，拉動人工智能領網域的協同創新，是智源一直的心願。

今年年初正式發布的 FlagOpen 飛智大模型技術開源體系，開啟了大模型時代 " 新 Linux" 生态建設。

FlagOpen（飛智）大模型技術開源體系是由智源研究院與多家企業、高校和科研機構共建的一站式、高質量的大模型開源開放軟體體系，包括大模型算法、模型、數據、工具、評測等重要組成部分，旨在建設大模型領網域的 " 新 Linux"。

讓國内外開發者可以快速開啟各種大模型的嘗試、開發和研究工作，企業可以低門檻進行大模型研發。

另外，大模型研究并不是智源研究院的全部，而是大模型、生命智能、AI for Science 三大路線都一直在布局。

但為什麼是大模型的進展最快，取得了階段性突破？黃鐵軍院長也給出了他的看法：

主要是語言數據無論是論文、圖書還是代碼都非常豐富且質量高，從海量數據中發現内在蘊含的規律正是大模型的優勢。

而人腦可以看成脈衝神經網絡，與今天的大模型有本質區别，想要 AI 產生類似人腦的能力，光靠大模型一個方向是遠遠不夠的。

從基礎的神經網絡結構到信号加工機理的類腦智能是一個方向，讓智能體有物理身體與環境互動的具身智能是另一個方向。

最後，智源還一直積極推動搭建國際 AI 研究者交流與合作的舞台。一大批前沿的研究者活躍在智源的各種生态活動中。

日常有智源社區、連接國内外青年 AI 學者的青源會等線上線下相結合的交流活動。

一年一度的智源大會，更是面向專業精英人群、關注度最高的 AI 行業大會。

從 2019 年首屆智源大會開始，每屆都不乏圖靈獎得主和學術大咖、行業關鍵人物參與。

就拿深度學習三巨頭來說，Bengio 在 2021 年智源大會主會場介紹的 System2 機器學習理論最新進展，如今以 " 思維鏈 " 的形式應用在了大模型提示工程領網域。

今年智源大會同時請來了 LeCun 及 Hinton，但其實背後還有一個小插曲。

第三屆時 Hinton 本來也打算參加，但就在大會前幾天，他突然發現準備分享的新方法裡出現 bug，只能遺憾取消。

除三巨頭之外，還有多位圖靈獎得主到過智源大會做客，包括貝葉斯網絡提出者 Judea Pearl、RISC-V 掌門人 David Patterson，數據結構大師 John Hopcroft 更是任智源學術顧問委員會委員。

此外也不乏重點領網域頂尖專家，如 LSTM 之父 J ü rgen Schmidhuber、信息安全領網域泰鬥 Adi Shamir、腦成像領網域權威 Karl Friston ……

量子位讀者中有不少 AI 行業從業者和相關專業學生，說起智源大會的印象都是 " 良心活動 " 以及 " 學術追星現場 "。

為什麼這麼多專家學者都願意到智源大會來做學術交流？

不同于商業活動，在智源大會上不需要牽扯各種現實因素，只是每一個專家從專業角度進行交流，更中立、純粹。

也不同于學術會議聚焦在一篇一篇的點狀論文上，參加智源大會可以從更宏觀、全局層面來一場頂級的觀點碰撞。

對此，黃鐵軍院長總結到：

這種形态的會議，對整個人工智能生态發展也可以起獨特的作用。

越純粹，越中立，越開放，越有利于大家更好的把握這樣的一個高速發展的時代。

今年的智源大會延續了之前的風格，但又因為 AI 發展到新的階段而受到全社會矚目。

議程設定上也聚焦大模型、多模态、生成模型，AI 安全倫理問題和風險防範等最新話題展開。

同時也有自動駕駛、生命科學等等專業細分領網域等百場報告研讨。

感興趣的朋友可以戳下方鏈接進行參與：

https://2023.baai.ac.cn/schedule

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~