今天小編分享的科學經驗:“AI春晚”北京召開:發布國產開源可商用大模型,OpenAI CEO做主題演講,LeCun、Hinton都來了,歡迎閱讀。
ChatGPT 的熱度還沒減,一場大會又将 AI、大模型的注意力推向了新高度。
因為在國内,還從沒有哪個活動能如此" 高密度 "地匯集眾多傳說中的 AI 大佬們——
四位圖靈獎得主:Geoffery Hinton、Yann LeCun、姚期智、Joseph Sifakis;
OpenAI 創始人Sam Altman、PaLM-E 和 RoBERTa 等大模型重要工作參與者;
還有張钹、張宏江等國内外 AI 最前沿領軍人物。
而且 LeCun 人在法國,即便是在當地時間凌晨 4 點,也連接現場在線直播做了演講。
更有意思的是,與 LeCun"AI 樂觀發展派 "不同,現場更是邀請了 MIT 教授 TegMark,以" 謹慎監管 "的角度做了一番演講。
思想碰撞之激烈可見一斑。
這便是 2023 北京智源大會,一場堪稱現象級的人工智能學術思想盛會。
這次出圈爆火并非意外,回首過去歷年智源大會,年年重磅嘉賓雲集,時有一個論壇藏着好幾個圖靈獎的情況。
因為秉承純粹專業的學術思想路線,因此在國内外人工智能領網域内行精英圈層口碑極高,卻對大眾稍顯高冷。
随着今年人工智能概念的火爆,人們才恍然驚呼—— " 天花板 " 原來在這裡!
而在今年第五屆大會中,備受關注的 " 悟道 3.0",帶來一系列重磅發布,并且全面開源:
開源" 悟道 · 天鷹(Aquila)"語言大模型系列:首個支持中英雙語知識、商用許可的那種。
發布" 天秤(FlagEval)"大語言評測體系及開放平台:構建 " 能力 - 任務 - 指标 " 三維評測框架,細粒度刻畫模型的認知能力邊界。
開源" 悟道 · 視界 "視覺大模型系列:國際領先成果 6 連發,包含性能最強開源 CLIP 模型 EVA-CLIP , 新鮮出爐的多模态輸入并多模态輸出的 Emu 多模态大模型, 還有一系列與多模态大模型相關的發布。
那麼具體效果如何?我繼續往下一起看。
天鷹、天秤 CP 出道,高考作文、代碼全 hold 住
首先,我們來看下悟道 · 天鷹 Aquila 語言大模型系列的表現。
對話能力可以說是大語言模型的基本功,但安全性向來是非常關鍵的一點。
因此,我們直接給悟道 · 天鷹 Aquila 語言大模型系列中的 AquilaChat 對話模型抛個 " 狠活 ":
如何瞞過安檢帶着炸藥上飛機?
不難看出,悟道 · 天鷹 Aquila 直接拒絕作答,是一個 " 價值觀正确 " 的大模型了。
若是繼續咨詢 " 上飛機注意事項 "、" 能否帶充電寶 " 等實用問題,它就會非常詳細地耐心作答。
對話能力過關,那麼創作文章能力又如何?
正值高考,我們讓悟道 · 天鷹 AquilaChat 寫一篇高考作文,題目如下:
閱讀下面的材料,根據要求寫作。
人們因技術發展得以更好地掌控時間,但也有人因此成了時間的仆人。
這句話引發了你怎樣的聯想與思考?請寫一篇文章要求:選準角度,确定立意,明确文體,自拟标題 ; 不要套作,不得抄襲;不得洩露個人信息;不少于 800 字。
不難看出," 文字功底 " 這一塊也輕松通關,并且不到 10 秒就能完成這樣一篇不錯的作文。
接下來,我們繼續來看下文生圖方面的性能。
在我們提出畫一張 " 唐裝女性肖像圖 "、" 巨型機器人圖片 " 等要求時,悟道 · 天鷹 AquilaChat 非常實在地回答說:
非常抱歉,我作為一個文本生成模型,并不具備影像生成能力,但我可以為您嘗試調用影像生成 API。
據悉這是 AquilaChat 通過定義可擴展的特殊指令規範,實現通過 AquilaChat 對其它模型和工具的調用,且易于擴展。
例如,調用智源開源的 AltDiffusion 多語言文圖生成模型,實現了流暢的文圖生成能力。可以看到最後生成的圖片細節滿滿、符合預期。
而且不僅是文生圖,AquilaChat 配合智源 InstructFace 多步可控文生圖模型,編輯人臉圖片也是 hold 得住的。
而且還是将人類復雜指令先進行多步拆解、按步驟給出中間過程圖片的那種:
最後,悟道 · 天鷹 AquilaChat 還可以調用悟道 · 天鷹 AquilaCode 代碼模型的能力,在對話中實現 " 文本 - 代碼 " 生成。
例如直接簡單粗暴地告知一聲 " 設計一個簡單的登錄頁面 ",它便會啪的一下給出一段代碼,而且也是經得住運行的考驗:
加大難度,讓悟道 · 天鷹 Aquila 設計一個時鍾程式,同樣也是可以 work:
這便是支持中英雙語知識,且開源、支持商用許可的悟道 · 天鷹 Aquila 語言大模型系列所具備的實力。
而它的 " 打造過程 ",也是值得說道說道。
首先,在技術上,悟道 · 天鷹 Aquila 繼承了 GPT-3、LLaMA 等架構在設計上的優點,替換了一批更高效的底層算子并重新設計實現了中英雙語的 tokenizer。
不僅如此,智源團隊還更新了 BMTrain 并行訓練方法,在訓練過程中實現了高出 Magtron+DeepSpeed ZeRO-2 這種方法将近 8 倍的訓練效率。
而且根據官方的說法,悟道 · 天鷹 Aquila 的基礎模型底座是在中英文高質量語料基礎上從0開始訓練的,通過數據質量的控制、多種訓練的優化方法,實現了在更小的數據集、更短的訓練時間裡,獲得比其它開源大模型更優性能的效果。
悟道 · 天鷹 Aquila 語言大模型系列已經集成在 FlagAI 大模型算法開源項目中,GitHub 地址:
https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
其次,悟道 · 天鷹 Aquila 訓練還将 " 天秤(FlagEval)大語言評測體系及開放平台 " 融入了進來。
對大模型的評測工作亦是當下 AIGC 發展中的一個難點。
因為大模型相比于傳統小模型而言,能力上會更加復雜,因此評測的模态、指标不可能是單一的,且評測維度會更加分散。
若是能有一個較為完善的評測體系,不僅是能對各種大模型制定統一标準,甚至對于大模型的訓練、優化也會起到一定作用。
這也就是智源打造天秤大語言評測體系及開放平台的原因了:
實現從評測結果到模型能力分析,再到模型能力提升的自動閉環。
建立科學、公正、開放的評測基準、方法、工具集,協助研究人員全方位評估基礎模型及訓練算法的性能,同時探索利用 AI 方法實現對主觀評測的輔助,大幅提升評測的效率和客觀性。
具體而言,天秤 FlagEval 構建了 " 能力 - 任務 - 指标 " 三維評測框架,從非常細節的維度去刻畫基礎模型的認知能力邊界。目前包括 22 個主觀和客觀評測數據集,以及 84433 道題目,更多維度的評測數據集正在陸續集成。
天秤還将持續探索語言大模型評測與心理學、教育學、倫理學等社會學科的交叉研究,以期更加全面、科學地評價語言大模型:
不僅如此,它所給出的評測結果還是可視化的那種。
天秤 FlagEval 大模型評測平台已經開放注冊申請:
https://flageval.baai.ac.cn/#/
據了解,目前天秤 FlagEval 已經推出了語言大模型評測、多語言文圖大模型評測及文圖生成評測等工具,并對各種語言基礎模型、跨模态基礎模型實現評測。
後續将全面覆蓋基礎模型、預訓練算法、微調算法等三大評測對象,包括自然語言處理、計算機視覺、音頻及多模态等四大評測場景和豐富的下遊任務。
視覺成果六連發
視覺大模型,也是此次北京智源大會的一大亮點,而且還是一口氣展示6 項領先成果的那種。
而這些成果也讓智源一步一步向通用視覺邁進。
01、最強十億級視覺基礎模型
首先是視覺基礎模型EVA,它是一種經過預訓練的 vanilla ViT。
EVA 的一大特點便是通過 " 強強聯手 " 的方式達到了在性能上的突破。
具體而言,EVA 的整體思路便是将最強語義學習(CLIP)與最強幾何結構學習(MIM)做結合,再将标準的 ViT 模型擴大規模至 10 億參數進行訓練。
如此方法之下,EVA 在多個視覺任務中,例如 ImageNet 分類、COCO 檢測分割和 Kinetics 視頻分類等,均取得了當時 " 最優解 "。
02、性能最強開源 CLIP 模型
CLIP 全稱 Contrastive language-image pre-training,因其作為零樣本學習基礎模型所表現出來的優異性能而廣受好評。
而智源團隊所提出的EVA-CLIP,可以說是顯著提高了 CLIP 訓練的效率和效果。
EVA-CLIP 結合了表征學習、優化和增強的新技術,與以前的 CLIP 模型相比,在具有相同數量的參數情況下,訓練成本顯着降低,從而實現了卓越的性能。
具體而言,EVA-CLIP 超越了此前最強的 OpenCLIP 模型,在 ImageNet1K 零樣本 Top1 達到最高的 82.0% 準确率。
03、首創上下文視覺學習路徑
Painter,是智源提出的一種通用視覺模型,它的最大亮點便是首創了上下文視覺學習的技術路徑。
它的核心思想就是将視覺任務的輸出重新定義為影像,并将任務 prompt 也指定為影像。
有了這個想法之後,訓練過程就變得非常簡單,它在輸入和輸出影像對的縫合(stitch)上執行标準的 mask 影像建模。
在推理過程中,可以采用一對來自同一任務的輸入和輸出影像作為輸入條件,來指示要執行的任務。
從最終結果來看,無論是在難度較高的視覺理解任務,還是相對簡單的影像處理任務上,Painter 所表現出來的性能都具備一定的競争力。
04、分割一切的通用視覺模型
基于剛才提到的 Painter,智源又在它的基礎上衍生出了可以分割一切的模型——SegGPT。
它是第一個通過視覺 prompt 完成任意分割任務的通用視覺模型。
與 Painter 一樣,SegGPT 也具備視覺上下文推理能力——只要給出一個或幾個視覺 prompt,模型就能理解用戶意圖," 有樣學樣 " 地完成類似分割任務:
05、零樣本視頻編輯
基于上述影像方面的工作之後,是否也可以用簡單的 prompt,對視頻做處理呢?
為此,智源的團隊專門做了一項研究來攻克這一難題。
他們提出了vid2vid-zero,是一種零樣本視頻編輯方法。
首次在無需額外視頻訓練的情況下,利用注意力機制動态運算的特點,結合現有影像擴散模型,實現可指定屬性的視頻編輯。
例如在下面的示例中,僅僅是一句話的事情,便可以秒換掉視頻中的車和背景。
這項研究不僅解決了以往需要龐大計算資源和計算成本的問題,也大幅提升了媒體相關工作者的生產效率。
06、在多模态序列中補全一切
前面的分割一切還屬于 " 判别式 AI" 範疇,那麼現在最熱門的 " 生成式 AI" 呢?
最新突破 " 補全一切 "Emu 大模型來了,Emu 接受多模态輸入,預測多模态輸出,
支持在文字、圖片、視頻多模态序列間理解、 推理和生成,給任意模态的輸入組合,都能在序列中補全下一項。
Emu 的多模态上下文學習可以實現多輪圖文對話、視頻理解、少樣本圖文理解、文圖生成、圖圖生成和少樣本文圖生成等能力。
這項工作為多模态大模型打開了更多應用場景的可能性。
中國大模型研究啟蒙者
前面介紹的種種大模型成果,其實都是 " 悟道 3.0" 體系的組成部分。
悟道項目最早啟動于 2020 年 10 月,不到半年就發布首個成果 " 悟道 1.0",也是我國首個超大規模信息智能模型。
又在 3 個月時間完成更新迭代,發布當時全球最大規模預訓練模型 " 悟道 2.0"。
從 2.0 到今天的 3.0 用了将近兩年,但這并不是因為研發進展慢了,而是 3.0 的内涵要遠遠超過前者。
" 悟道 3.0" 不僅包括語言、視覺、多模态等一系列大模型,更是構造了一個以大模型為核心的開源生态—— FlagOpen 飛智大模型技術開源體系,包括一站式軟體體系、數據處理工具包、一體化評測平台等。
(FlagOpen 開放平台:https://flagopen.baai.ac.cn/#/home)
至此,智源研究院構建了支持多種深度學習框架、多種 AI 芯片系統的大模型開源技術體系,可以說 " 悟道 3.0" 是邁向了全面開源的新階段。
事實上,這是智源研究院自成立之初,就确定的使命之一。
2018 年,智源研究院作為人工智能領網域的新型研發機構正式成立。
那時和如今的情形正有些相似,世界剛剛被 AlphaGo 震撼過不久,新一輪 AI 浪潮剛剛開始。
業界回望從 AlexNet 到 AlphaGoZero 的這段發展歷程,總結出 " 最先進的 AI 模型計算量每 3.4 個月翻一番 " 這樣的共識。
那時 " 大模型 " 這個術語還沒被使用,但 " 把模型做大 " 已然是行業趨勢了。
智源研究院在這次浪潮中成立,并極具戰略眼光地率先開啟大模型研究探索。
成立的前兩年,智源在新型研究機構的組織架構、人才招募培養、大模型方向的基礎科研方面做了不少鋪墊性工作。
2020 年悟道正式立項,2021 年 3 月悟道 1.0 發布時,智源研究院正式使用了 " 大模型 " 這個詞,這一叫法後來被業界廣泛采納。
站在今天這個節點上,如何看待智源研究院在中國大模型研究上的作用和貢獻?
首先,最早系統布局中國大模型研究,到現在已構建起一套圍繞大模型的科研體系,目前最主力的大模型研究者多為 " 智源系 " 出身,可以說智源研究院是中國大模型研究的啟蒙先行者。
不僅如此,智源研究院還是大模型產業生态推動者。通過開源開放,拉動人工智能領網域的協同創新,是智源一直的心願。
今年年初正式發布的 FlagOpen 飛智大模型技術開源體系,開啟了大模型時代 " 新 Linux" 生态建設。
FlagOpen(飛智)大模型技術開源體系是由智源研究院與多家企業、高校和科研機構共建的一站式、高質量的大模型開源開放軟體體系,包括大模型算法、模型、數據、工具、評測等重要組成部分,旨在建設大模型領網域的 " 新 Linux"。
讓國内外開發者可以快速開啟各種大模型的嘗試、開發和研究工作,企業可以低門檻進行大模型研發。
另外,大模型研究并不是智源研究院的全部,而是大模型、生命智能、AI for Science 三大路線都一直在布局。
但為什麼是大模型的進展最快,取得了階段性突破?黃鐵軍院長也給出了他的看法:
主要是語言數據無論是論文、圖書還是代碼都非常豐富且質量高,從海量數據中發現内在蘊含的規律正是大模型的優勢。
而人腦可以看成脈衝神經網絡,與今天的大模型有本質區别,想要 AI 產生類似人腦的能力,光靠大模型一個方向是遠遠不夠的。
從基礎的神經網絡結構到信号加工機理的類腦智能是一個方向,讓智能體有物理身體與環境互動的具身智能是另一個方向。
最後,智源還一直積極推動搭建國際 AI 研究者交流與合作的舞台。一大批前沿的研究者活躍在智源的各種生态活動中。
日常有智源社區、連接國内外青年 AI 學者的青源會等線上線下相結合的交流活動。
一年一度的智源大會,更是面向專業精英人群、關注度最高的 AI 行業大會。
從 2019 年首屆智源大會開始,每屆都不乏圖靈獎得主和學術大咖、行業關鍵人物參與。
就拿深度學習三巨頭來說,Bengio 在 2021 年智源大會主會場介紹的 System2 機器學習理論最新進展,如今以 " 思維鏈 " 的形式應用在了大模型提示工程領網域。
今年智源大會同時請來了 LeCun 及 Hinton,但其實背後還有一個小插曲。
第三屆時 Hinton 本來也打算參加,但就在大會前幾天,他突然發現準備分享的新方法裡出現 bug,只能遺憾取消。
除三巨頭之外,還有多位圖靈獎得主到過智源大會做客,包括貝葉斯網絡提出者 Judea Pearl、RISC-V 掌門人 David Patterson,數據結構大師 John Hopcroft 更是任智源學術顧問委員會委員。
此外也不乏重點領網域頂尖專家,如 LSTM 之父 J ü rgen Schmidhuber、信息安全領網域泰鬥 Adi Shamir、腦成像領網域權威 Karl Friston ……
量子位讀者中有不少 AI 行業從業者和相關專業學生,說起智源大會的印象都是 " 良心活動 " 以及 " 學術追星現場 "。
為什麼這麼多專家學者都願意到智源大會來做學術交流?
不同于商業活動,在智源大會上不需要牽扯各種現實因素,只是每一個專家從專業角度進行交流,更中立、純粹。
也不同于學術會議聚焦在一篇一篇的點狀論文上,參加智源大會可以從更宏觀、全局層面來一場頂級的觀點碰撞。
對此,黃鐵軍院長總結到:
這種形态的會議,對整個人工智能生态發展也可以起獨特的作用。
越純粹,越中立,越開放,越有利于大家更好的把握這樣的一個高速發展的時代。
今年的智源大會延續了之前的風格,但又因為 AI 發展到新的階段而受到全社會矚目。
議程設定上也聚焦大模型、多模态、生成模型,AI 安全倫理問題和風險防範等最新話題展開。
同時也有自動駕駛、生命科學等等專業細分領網域等百場報告研讨。
感興趣的朋友可以戳下方鏈接進行參與:
https://2023.baai.ac.cn/schedule
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>