今天小編分享的科學經驗:華為最新大模型來了!盤古3.0問世,千億參數規模3萬億tokens,放話「不作詩只做事」,歡迎閲讀。
終于,華為的大模型動向來了!
盤古大模型 3.0,今天正式發布。
最底層的基礎大模型包括 100 億參數、380 億參數、710 億參數和 1000 億參數四個版本,預訓練使用了超 3 萬億 tokens。
但和早先的傳言不同,盤古大模型 3.0 并非是盤古版 ChatGPT,而是一個面向行業的大模型系列。
用華為自己的話來説就是:
盤古大模型,不作詩。
(而且現場全程沒有 cue 到 " 生成式 " 這個關鍵詞)
所以在慣例的現場演示環節,華為也都是派行業大模型出戰。
比如讓政務大模型判斷照片中除了貨車外還有哪些車輛違規,可以看到大模型标出了三輛小轎車,而且給出了原因。
與此同時,可提供 2000P Flops 單集群的昇騰 AI 雲服務在烏蘭察布和貴安同時上線。
" 千億規模大模型具備湧現、思維鏈能力 "
不想作詩的盤古大模型 3.0,想做的事是面向行業。
這從它的架構上就可以感受到,盤古大模型 3.0 分為三層:
L0:基礎大模型,包括自然語言、視覺、多模态、預測、科學計算;
L1:N 個行業大模型,比如政務、金融、制造、礦山、氣象等;
L2:更細化場景的模型,提供 " 開箱即用 " 的模型服務
其中 L0 層的基礎大模型負責提供通用技能。
模型可分為自然語言大模型和多模态大模型兩類。能力覆蓋了對話問答、文案生成、影像生成、影像理解等。
預訓練數據中包含了超過 3 萬億 tokens,使用了超過 1000+TB數據訓練,指令微調數據也在千萬級。
并且盤古基礎大模型是一個可伸縮、高可擴展的稀疏 - 稠密語言大模型。
千億級别稠密模型已經具備湧現、思維鏈能力,構成了底座;通過稀疏化使其成為不同 " 行業專家 ",這樣可使得推理過程更加高效。
L1 層由 N 個行業大模型構成。
在這方面,華為使用行業公開數據訓練了多個行業通用大模型,如政務、金融、制造、礦山、氣象等。
比如氣象方面,盤古氣象大模型的最新成果剛剛登上 Nature 正刊,只需要 1.4 秒就能完成 24 小時全球氣象預報。
此外,行業可以換也能基于自有數據在 L0、L1 基礎上,訓練自己的專用大模型。
L2 層則提供更加細化場景的模型,主打 " 開箱即用 "。可專注于政務熱線、網點助手、先導藥物篩選、傳送帶異物檢測、台風路徑預測等具體行業應用或特定業務場景。
據了解,為快速适配、快速滿足行業需求,盤古大模型采用完全的分層解耦設計。
在 L0 和 L1 大模型的基礎上,華為雲還提供了大模型行業開發套件,通過對自有數據二次訓練,就可以擁有自己的專屬行業大模型。
同時,根據客户不同的數據安全與合規訴求,盤古大模型還提供了公用雲、大模型雲專區、混合雲多樣化的部署形态。
華為在最底層構建了以鲲鵬和昇騰為基礎的 AI 算力雲平台,以及異構計算架構 CANN、全場景 AI 框架昇思 MindSpore,AI 開發生產線 ModelArts 等,能為大模型開發和運行提供分布式并行加速,算子和編譯優化、集群級通信優化等關鍵能力。
基于華為的 AI 根技術,大模型訓練效能可以調優到業界主流 GPU 的 1.1 倍。
華為雲 2000P Flops 單集群的昇騰 AI 雲服務在烏蘭察布和貴安同時上線。
披露數據表明,昇騰雲 AI 服務的千卡訓練 30 天長穩率達到 90%,斷點恢復時長不超過 10 分鍾。
除了支持華為的 AI 框架 Mindspore 外,還支持 Pytorch,Tensorflow 等主流 AI 框架,框架中的 90% 算子,都可以通過華為的遷移工具從 GPU 平滑遷移到昇騰。
例如,美圖僅用 30 天就将 70 個模型遷移到了昇騰,同時華為雲和美圖團隊一起進行了 30 多個算子的優化以及流程的并行加速,AI 性能較原有方案提升了 30%。
氣象大模型登上 Nature 正刊
在展示盤古大模型 3.0 的基礎能力後,華為也對盤古大模型的一系列行業應用做了數據披露。
最近,盤古氣象大模型登上 Nature 的消息刷屏了。
據悉,盤古氣象大模型是首個精度超過傳統數值預報方法的 AI 預測模型,同時預測速度也有大幅提升。
原來預測一個台風未來 10 天的路徑,需要在 3000 台伺服器的高性能計算機集群上花費 5 小時進行仿真。現在基于預訓練的盤古氣象大模型,通過 AI 推理的方式,研究者只需單台伺服器上單卡配置,10 秒内就可以獲得更精确的預測結果。
在藥物研發領網域,原來一款新藥研發平均需要 10 年時間、花費 10 億美金。盤古藥物分子大模型助力西安交通大學第一附屬醫院劉冰教授團隊發現全球 40 年來首個新靶點、新類别的抗生素,并将先導藥物研發周期縮短至 1 個月、研發成本降低 70%。
在鐵路領網域,盤古鐵路大模型能精準識别現網運行的 67 種貨車、430 多種故障,無故障圖片篩除率高達 95%,成為貨運列檢員身邊有力的數字助手,将列檢員從每日數百萬張的 " 圖海 " 檢測中解放出來。
華為常務董事、華為雲 CEO 張平安給最新動向,做了最凝練的總結:
盤古大模型要讓每個行業、每個企業、每個人都擁有自己的專家助手,讓工作更高效更輕松。
我們始終堅持 AI for Industries 的戰略,在深耕行業的道路上不斷前行。我堅信大模型将重塑千行百業,而每一個開發者,都将是改變世界的英雄。