今天小編分享的互聯網經驗:華為盤古大模型全布局揭秘,AI for Industries的落地路徑,歡迎閱讀。
你還在用 ChatGPT 聊天麼?
從全民熱衷嘗鮮,到僅有少部分人仍在使用,上半年的 ChatGPT 喧嚣進入尾聲,而由另一維度觀測,新技術的生命力在市場,只有客戶拿真金白銀買單的大模型,才是技術 - 商業的正向循環,下半年,行業大模型争相落地開啟新的競争。
在 7 月 7 日舉辦的華為開發者大會 2023(Cloud)上,華為雲正式發布盤古大模型 3.0。盤古大模型 3.0 是一個完全面向行業提供服務,以行業需求為基礎設計的大模型體系,包括 5+N+X 三層架構。
不疾不徐,華為盤古大模型揭開了新的一重面紗,也是 ChatGPT 熱潮之後,華為首次系統性地談論大模型。
钛媒體 App 了解到,華為并不熱衷于 " 百模大戰 ",盡管早在 2021 年 4 月,華為雲就發布了盤古大模型,包括 NLP 大模型和 CV 大模型,此後華為相繼發布科學計算大模型、藥物分子大模型、盤古礦山大模型和氣象大模型。
" 熟悉華為的人想想就知道,‘盤古 chat ’不符合華為的主航道,華為的策略是拿下 B 端市場,基礎模型早就發布過,國内國外 C 端的大模型聲量雖然大,但是華為沒有想去摻一腳,還是堅定地做自己擅長的事,到了整個市場都重視大模型落地、談論行業大模型的時候,華為就必須要站出來了 ",一位接近華為人士表示。
華為是國内最早發布大模型的廠商之一,資本市場概念的炒作一輪又一輪,當產業潮水湧向行業大模型,華為還是按捺不住,将自己的大模型戰略和盤托出。
華為輪值董事長胡厚崑在 WAIC 上表示,華為人工智能的發展關鍵是 " 走深向實 ",着力點放在讓人工智能為千行百業的生產活動服務,為科研創新服務。
當前階段,華為在人工智能發展上有兩個着力點:第一,打造強有力的算力底座,支撐中國人工智能產業的發展。第二,從通用大模型到行業大模型,讓人工智能服務好千行百業、服務好科研創新。
大模型 " 卷 " 落地
前車之鑑,後事之師。數十年間,人工智能技術發展的曲線潮起潮落," 落地難 " 始終是橫亘在產業現實的一道關卡。
在 ChatGPT 熱潮之前,人工智能面臨場景碎片化的問題,同時人工智能并沒有進入到企業的核心場景,技術和業務不是緊耦合的關系,也就很難形成規模效應。
根據第三方網站 SimilarWeb 的監測數據,6 月份,ChatGPT 的網站與移動客戶端的全球流量(PV)環比下降了 9.7%,美國地區的流量環比下降了 10.3%。同時,ChatGPT 的獨立訪客數量(UV)下降了 5.7%,訪客在網站上花費的時間也下降了 8.5%。這是自 2022 年 11 月 30 日發布以來,ChatGPT 首次出現流量負增長。
拐點的到來,在一些人的意料之外,卻在另一些人的情理之中。
華為常務董事、華為雲 CEO 張平安表示," 目前大模型大多數應用都集中在 2C 領網域,在面向行業應用時,由于行業數據獲取難,技術與行業 know-how 結合難,大模型在行業的落地進展較慢。"
當普羅大眾還在沉浸 ChatGPT 聊天的驚豔表現時,人工智能廠商已經在設想大模型的商業化,國際上,微軟、亞馬遜等大廠向企業級服務尋求商業化路徑,進行多個行業的探索;國内,諸如華為、百度、阿裡、騰訊等大小廠商,都在快馬加鞭加速行業大模型投入。
華為很早就看到了這一方向,據悉,2020 年,華為判斷人工智能有兩個發展方向,一個是小模型到大模型的趨勢;第二個,人工智能和行業的結合,就是 AI for Industries,華為認為 AI 在千行百業有着極大的想象空間。
前者,随着模型參數的不斷擴大,小模型到大模型的趨勢已然兌現,張平安介紹,盤古 3.0 能夠為客戶提供 100 億參數、380 億參數、710 億參數和 1000 億參數的系列化基礎大模型,匹配客戶不同場景、不同時延、不同響應速度的行業多樣化需求。
後者,在 GPT 火熱之前,盤古大模型已經深耕行業,打造礦山、氣象、藥物分子、鐵路等領網域行業大模型和能力集,将行業知識 know-how 與大模型能力相結合,重塑千行百業,為每個企業、每個人提供專家助手,讓工作更輕松。
如果說,彼時華為的戰略預判還略顯突兀,沒有太多的參考,那麼,如今大模型已經足以證明,華為的技術和業務路線的雙重正确。
今年以來,華為遲遲不去 " 蹭 " 大模型的風口,而是在水面之下做一些基礎的工作。盤古大模型發布以來,華為一直思考的都是客戶運營、產品研發、軟體工程、生產供應、市場營銷等行業客戶所關注的問題,堅持自己的技術主張和研發節奏,不急于求成,始終追求技術突破和技術領先,确保產品質量和交付質量。
" 華為早在 2020 年就堅定地選擇了大模型路線,當時市場上的熱度并沒有今天高,也存在很多質疑的聲音,我們仍然堅持了下來,未來不管炒作與否,熱度高低,我們都會盡量不受外界幹擾,堅持做正确的事。" 華為雲人工智能領網域首席科學家田奇對钛媒體 App 表示。
談及行業過熱的狀态,田奇表示," 針對大模型這樣最頂尖的技術,市場的熱度一方面反映了資本對大模型盈利能力的期待,另一方面也反映了公眾對大模型應用能力的期待。"
市場是最大的驅動力,大模型最大的改變,是創造了一個規模化效應的出口,上層應用都可以基于大模型去發展,把碎片化的場景,歸攏統一,形成一套大模型解決方案,盤古大模型 3.0 的更新也遵循相似的邏輯。
盤古 3.0 大模型體系的 5+N+X 三層架構中,5 大 L0 層的基礎大模型,包括自然語言大模型、視覺大模型、多模态大模型、預測大模型、科學計算大模型,能夠提供各種通用技能,支撐企業的各類應用。
N 個 L1 層的行業大模型,例如政務大模型,金融大模型,礦山大模型等,能夠基于基礎大模型的多種能力組合,通過行業數據以及企業自有數據的二次訓練,幫助企業打造自己的大模型。
X 代表海量 L2 層的場景模型,與基礎大模型和行業大模型相比,場景模型更加專注于某個具體的應用場景或特定業務,為客戶提供開箱即用的模型服務,例如,在醫療領網域,針對小分子篩選,小分子優化等。
從 " 無人相信 " 到登上《Nature》
華為開發者大會 2023(Cloud)發布會前夕,華為雲盤古大模型團隊研發的高分辨率全球 AI 氣象預報系統研究成果,正式在《Nature》正刊上發表,基于三維神經網絡的氣象預報系統精度,超過傳統數值預報方法,且速度提高了 1 萬倍以上。
少有人知道的是,就在去年 12 月份,國際氣象領網域的專家教授們還普遍認為,AI 要達到傳統數值方法的精度,是一件非常遙遠的事。
"There are a lot of comments I could make indicating that this is perhaps not yet quite the triumph of AI over physical modelling. despite the claims in the paper. Never the less it is a big step forward compared to other efforts. The paper has also been causing a degree of existential angst at ECMWF.(我可以發表很多評論,表明這可能還不是 AI 相對于物理建模的巨大勝利,盡管論文中提出了主張,與其他努力相比,這絕不是向前邁出的一大步。但是,該論文還是在 ECMWF 引起了一定程度的焦慮。)
歐洲中期天氣預報中心(ECMWF)是全球權威的國際性天氣預報研究和業務機構,該中心于 1979 年 6 月首次做出了實時的中期天氣預報,現在,華為盤古氣象大模型,為世界展現了另一種可能。
盤古氣象大模型研發團隊核心成員對钛媒體 App 表示,之前大家不相信 AI 方法能夠實現更高的精度和更好的效率,ECMWF 也在探索用 AI 預測天氣,但是規劃的時間表以十年計算,他們認為,AI 方法存在很多現階段難以突破的問題。
例如分辨率不夠,省級和區級的天氣預報,數據量相差很大,如果要做到更高的分辨率,數據量要達到上千 TB,這比其他 AI 應用數據量要大得多,大數據意味着消耗大算力,這部分問題能夠通過堆硬體、工程化解決。
再如現有的 AI 預報方法精度大部分顯著低于數值預報方法,這也是很多人都不相信 AI 能夠超過數值預測方法的主要原因,現有的 AI 氣象預報模型都是基于 2D 神經網絡,無法很好地處理不均勻的 3D 氣象數據,同時 AI 方法缺少數學物理機理約束,因此在迭代過程中會不斷積累迭代誤差。
華為雲提出了 3D Earth-Specific Transformer 方法,在每一個視覺 transformer 模塊中新引入和緯度、高度相關的絕對位置編碼,從而更好地處理復雜的 3D 氣象數據,并且拆分各個不同的時間段模型分散訓練,減少單個模型迭代的次數,從而減少迭代誤差。
" 我們不僅做出來一個精度超過歐洲氣象中心數據預報的模型,而且我們迅速讓這個模型落地,其中克服了很多問題,讓氣象專家實測驗證模型結果,他們沒有理由否認 AI 方法的先進性。" 如上人士表示。
氣象大模型的打造成為一個實證,華為雲不僅能有意願打造行業大模型,并且有将其付諸實踐的工具和能力。對應華為盤古大模型,L0 是科學計算基礎大模型,L1 是氣象行業大模型,L2 就是氣象預測等應用。
大模型回答了 " 一個模型能否解決通用問題 " 以及 " 模型本身是否有價值 " 的關鍵問題,但是要想真正構建完整的業務鏈條,還需要從商業化層面跟進,為了加速和簡化行業大模型從開發到落地,華為雲提供了盤古大模型工程化平台,覆蓋了數據處理、模型訓練和應用開發三大環節。
在數據平台方面,相比傳統标注平台(能提供的例如自動數據清洗等功能),華為雲數據工程平台專門為 SFT 訓練提供了基于模板的 Prompt 在線輔助撰寫功能,為 RLHF 訓練提供了多人 Rank 在線标注和任務分撥功能;對比離線進行這兩種任務,實測效率可提升 3 倍。
有了高質量的數據如何產生高質量的模型,還需要确保模型開發的過程準确無誤,在模型訓練方面,大模型開發套件提供了自監督預訓練,有監督 SFT 訓練,強化學習訓練 3 種工作流,覆蓋了從數據集創建,超參配置到模型訓練、評估、部署的全流程,凝結了大模型專家的實踐經驗,把復雜的大模型開發,流程化,标準化,簡單化,幫助行業用戶一鍵啟動,一站式開發。
之後,開發好的盤古大模型要想在行業發揮作用,離不開下遊應用,在模型開發方面,華為雲提供盤古應用開發套件,将傳統軟體工程與大模型相結合,提供多種 API 和工具可調用,支撐企業分鍾級構建大模型原生應用。
例如,基于盤古語言大模型和視覺大模型的基礎能力,以及盤古大模型工程化平台,在學習了超過 20 萬條政務數據,包括政策檔案、政務百科等公開政務知識,以及 12345 熱線場景等專有政務知識後,深圳市福田區政府打造了具備豐富法律法規、辦事流程等行業知識的福田政務大模型。
據了解,參照 GPT-3 完成一個千億行業模型端到端開發,基于盤古大模型工程化平台,開發大模型從過去需要 5 個月縮短到現在 1 個月,整體速度提升 5 倍。
AI 世界的另一極
人工智能已經成為國家戰略競争焦點,AGI(通用人工智能)可能改變甚至颠覆世界運轉的原有邏輯,國家層面強調:" 人工智能是引領這一輪科技革命和產業變革的戰略性技術,具有溢出帶動性很強的‘頭雁’效應。"
人工智能與實體經濟的結合,行業大模型扮演着重要作用,行業重塑、技術扎根、開放同飛,是華為雲的差異化優勢。
行業大模型以行業數據和 know-how 為重中之重,華為雲 AI 的優勢在于,在各行業已有數百個項目,基于對行業的深入理解,沉澱行業核心 know-how,華為雲盤古大模型能夠更好地落地在行業客戶的主業務場景。
盤古大模型已經學習 10 多個行業公開數據,涵蓋金融、政務、氣象、醫療、健康、互聯網、教育、汽車、零售等。華為雲和夥伴還聯合打造了工業、供熱、政務、煤礦、教育、電力、公路 7 大行業 aPaaS,為盤古大模型了構建最深厚的行業積累。
牆高基下,雖得必失,人工智能產業需要從最底層夯實基礎,張平安提到,其他人都可以依賴行業最成熟的 AI 算力和 AI 生态,但是華為只能依靠自己的 AI 根技術。
中國工程院院士鄭緯民此前表示,大模型是新型關鍵基礎設施的底座之一,大模型的競争也是國家科技戰略的競争,中國一定要布局全棧自主創新的大模型產品,同時要構建國產化算力,也要解決算力能耗與國家 " 雙碳 " 戰略的平衡。
為此,華為構建了最深的 AI 堆棧根技術,在最底層構建了以鲲鵬和昇騰為基礎的 AI 算力雲平台,構建了昇騰的計算引擎 CANN、AI 框架 MindSpore,以及 AI 開發平台 ModelArts,為大模型開發和運行提供分布式并行加速,算子和編譯優化,集群級通信優化等關鍵能力。
" 現在基于華為的 AI 堆棧,我們的大模型訓練效能不僅不落後,在大模型場景下我們的訓練效能是業界主流 GPU 的 1.1 倍 ",他說。
與此同時,華為雲提供了易用可靠的大模型工具套件、匯聚海量多行業場景 API 的開天 aPaaS,以及包含豐富優質課程和技術認證的大模型專屬社區,幫助開發者一站式完成入門到專家。
華為也積累了高密度的大模型人才:盤古團隊中大概 50% 以上是博士,還有很多名 " 天才少年 ",上述氣象大模型的核心成員便是之一,大模型在訓練過程中,會遭遇各種各樣的困難和挑戰,一個技術過硬、敢于創新的團隊,才是大模型能夠練成的核心保障,也是華為對外輸出大模型能力的依托。
在安全方面,華為雲提供公有雲、混合雲、大模型專區三種模式,保障安全部署;建立長效機制,确保大模型安全合規:包括數據集來源和使用合規、數據全生命周期安全、構建完整的數據标注以及審核機制、構建模型合規使用政策、确保模型使用邊界。
AI 大模型時代,面臨自下而上自主創新的宏大命題,華為正在打造世界 AI 另一極。
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App