今天小編分享的科技經驗:華為的大模型終于來了,我的評價是:相當震撼。,歡迎閲讀。
老被人説在大模型競賽中掉隊的華為,這次終于帶着它的家夥事兒來了。
這不,在昨天的華為開發者大會 2023 上,華為就狠狠地秀了一把。
将近三個小時的發布會,還是繼承了華為以往大雜燴的風格,看得世超是眼花缭亂。
不過,總結下來其實也就突出了一個主題:盤古大模型 3.0 。
其實就在前幾天,當别的大模型還在比各種評分的時候,盤古靠着世界頂級期刊 Nature 認證的金字招牌,以一種别具一格的方式進入了大家的視野。
據説,加入了盤古大模型,氣象預測的速度提高了 10000 倍以上,幾秒鍾就能出結果,台風打哪來,幾點來,啥時候走,都能給你預測得明明白白的。
最主要的是,它的預測精度甚至超過了号稱全球最強的歐洲氣象中心的 IFS 系統,算是頭一個 AI 預測赢了傳統數值預測的產品。
要知道,以往的 AI 氣象預測多是基于 2D 神經網絡開發,但氣象這玩意實在是太復雜了,2D 着實有點兒吃不消。
而且,之前的 AI 模型會在預測的過程當中不斷累計迭代的誤差,容易影響到結果的精确性。
所以 AI 預測方法一直都不咋受待見。
而盤古氣象大模型牛就牛在,他們用了個叫 3DEST 的三維神經網絡來處理氣象數據, 2D 幹不了的那就換 3D 來。
3DEST 的網絡訓練和推理策略
針對迭代誤差的問題,模型還用了個 " 層次化時網域聚合策略 " 來減少迭代誤差,從而提高預報的精度。
這詞兒雖然聽起來挺容易被唬住的,但其實很好理解。
就比如,之前的 AI 氣象預測模型 FourCastNet ,在台風來之前,它會提前 6 小時進行預測,在這 6 個小時裏,模型會多次計算台風到底啥時候來。
可能一會兒算出來 5 個小時,一會兒又算出來 4 個半小時,這些結果加到一起誤差就大了。
但盤古氣象大模型想了個法子,訓練了 4 個不同預報間隔的模型,分别是 1 小時迭代 1 次,還有 3 小時、 6 小時和 24 小時迭代 1 次。
再根據具體的氣象預測需求,選擇相應的模型進行迭代。
就比如説,咱們如果要預測未來 7 天的天氣,那就讓 24 小時的模型迭代 7 次;預測 20 個小時就是 6 小時的模型迭代 3 次 +1 小時的迭代 2 次。
迭代次數越少,誤差也就越小。
這波操作,讓天氣預報又邁向了一個新的 level 。
不過,可能有差友開始犯嘀咕了,人家的大模型都是生成影像和文字,怎麼到華為這就變成了天氣預報了?
有一説一啊,這盤古大模型跟咱之前接觸到的 ChatGPT 、 Midjourney 的确不太一樣,人家做的是行業的生意。
簡單來理解,就是盤古大模型咱個人一般用不上。
它并不是大家期待的 ChatGPT" 克星 " ,而是針對平時不太能接觸到的To B 市場。
咱先不提難與不難,至少華為這麼多年積累下來的企業客户資源,确實很容易變現。
而且華為這次的發布會可不止帶來了氣象預測模型這一個狠角色。
40 多年都沒發現新的抗生素,盤古藥物分子大模型一來就找着了超級抗菌藥 Drug X ,而且藥物的研發周期從數年縮短至幾個月,研發成本降低 70% 。
盤古礦山大模型也能深入到采煤的 1000 多個工序之中,而且光是裏頭挑選精煤的這一個環節,就能讓精煤回收率提升 0.1% 到 0.2% 。
要知道,一家年產 1000 萬噸焦煤的選煤廠,每提升 0.1% 精煤產率,每年就能多 1000 萬的利潤。
這可都是白花花的銀子啊。。。
事實上,除了上邊兒咱提到的天氣預測、藥物研發和選煤,盤古大模型在很多行業裏都已經用起來了。
發布會上,華為雲人工智能首席科學家田奇就表示,華為雲人工智能項目已經應用在了超過 1000 個項目中,其中 30% 用在客户的核心生產系統裏,平均推動客户盈利能力提升了 18% 。
而華為能夠量產這些各不相同的行業大模型,要歸功于華為盤古大模型 3.0 的 5+N+X 三層架構。
正是這種結構,讓盤古能夠快速落地到各個行業裏。
為什這麼説呢?
因為 AI 落地行業,數據是一大難點。
張平安在發布會上就説, " 由于行業數據獲取難,技術與行業結合難,大模型在行業的落地進展較慢。 "
而盤古則很巧妙,通過 5+N+X 的三層架構,直接把這個大難題拆成了 3 個小問題來解決。
首先,是先讓盤古 L0 層的 5 個大模型,學習了上百 TB 的百科知識、文學作品、程式代碼等文本數據,以及數 10 億張帶文本标籤的互聯網影像。
咱們可以理解為,先讓第一層 L0 的大模型( 自然語言大模型、視覺大模型、多模态大模型、預測大模型、科學計算大模型這 5 個基礎大模型 )建立起基本的認知,也就是有點像咱們大學前的素質教育階段。
然後,在第二層 L1 中的模型,則是讓 L0 中的某一個基礎大模型學習 N 個相關行業的數據形成的。這就像大學的本科階段,需要選擇各種專業去學習。
打個比方,醫院裏的 CT 影像檢測跟工廠的影像質檢雖説用的都是視覺大模型。
但畢竟一個是醫院,一個是工廠,使用場景完全不一樣,光靠基礎大模型那肯定行不通,但如果把行業數據加進去,可能就有驚喜了。
最後的 L2 ,則類似研究生,會在具體行業的基礎上再細化到某個場景。比如在倉儲物流行業裏,貨物的運輸、入庫、出庫可能都需要用到不一樣的部署模型。
與此同時呢,華為還在裏頭加入一個反饋環節,有點進公司實習内味了。
根據他們的説法,過去開發一個 GPT-3 規模的行業大模型,通常需要 5 個月;而有了這套東西,開發周期能縮短至原來的 1/5 。
同時很多行業數據集小的限制也能被解決。比如造大飛機這種很細很細的行業,也能有大模型。
除了這一套大模型,華為這次還提出了個非常有意思的東西——算力國產化。
眾所周知,咱們在 AI 算力方面,确實是比較尴尬。
一來, AI 行業的核心設備英偉達的 H100/A100 咱們買不到,二來,即使英偉達 " 貼心 " 出了平替 H800 ,但是也有所保留。比如,在傳輸速率上就砍了不少。
在大模型動辄幾個月訓練時間的背景之下,這就很容易被算力更強的國外同行彎道超車。
而這一回,針對這個問題,華為還是掏了些真家夥出來的。
比如,在紙面性能上,華為的昇騰 910 處理器已經夠上了英偉達 A100 。
不過實際應用起來,還是有一些差距的。而且 A100 這也不是英偉達的終極武器。
但是,昇騰已經受到了不少友商的認可。華為甚至在發布會上,直接表示 " 中國一半大模型的算力都是由他們提供的 " 。
當然,華為這會兒在算力上的亮點,更像是整個軟體生态帶來的。
比如,根據發布會的説法,算上 AI 昇騰雲算力底座、計算框架 CANN 。。。等環節,華為在訓練大模型方面,效率是業界主流 GPU 的 1.1 倍。
還有,他們給用户制定好了全套的應用套餐。
例如,美圖僅用 30 天就将 70 個模型遷移到了華為生态。同時華為還表示,在雙方的努力下,AI 性能較原有方案提升了 30% 。
還是挺可觀的。
而且華為還説,他們現在有近 400 萬的開發者,這個數量,是和英偉達 CUDA 生态對齊了。
這一系列的動作,算是把短板補上了一部分。
總的來説,一場華為發布會看下來,差評君覺得華為在 AI 方面的布局是很深刻的,他們早就開始思考 "AI 真正能帶給我們什麼 " 這個問題了。
過去半年裏, AI 行業雖然掌聲雷動,但是真正落到行業層面,多少有些尴尬。
而華為的這一次動作,恰好印證了如任正非説的:
" 未來在 AI 大模型方面會風起雲湧的,不只是微軟一家。人工智能軟體平台公司對人類社會的直接貢獻可能不到 2% , 98% 都是對工業社會、農業社會的促進。 "
AI 領網域,真正的大時代還在後頭。