今天小編分享的科學經驗:1天訓完45億參數大模型!高校計算能力首次比肩科技巨頭,歡迎閲讀。
" 第一次,高校擁有了和科技巨頭一樣的計算能力。"
説這句話的人是中國工程院院士、阿裏雲創始人王堅。
他口中讓高校計算能力倍增的,是復旦大學剛剛發布的雲上科研智算平台。
名為CFFF(Computing for the Future at Fudan),由復旦、阿裏雲、中國電信等共同打造,以公共雲模式提供超千卡并行智能計算,支持千億參數的大模型訓練。
這是目前國内高校最大的雲上科研智算平台—— 67 年前,我國第一架電子計算機(復旦 601 型電子積分機,1956 年)誕生在復旦;67 年後,復旦再次走在前列。
目前,首個基于 CFFF 平台訓練的科學大模型成果已經對外正式發布,45 億參數的中短期天氣預報大模型可一日訓完。
組成 CFFF 平台的兩個計算集群,一個名為 " 近思 " 一号,一個名為 " 切問 " 一号。
兩個名字都從復旦校訓 " 博學而笃志,切問而近思 " 中采撷而來。
發布會上,首屆世界科學智能大賽也正式啓動,設定 5 大前沿研究賽道,賽題基于 CFFF 平台而來,目的是推動科學大模型落地。
CFFF 是什麼?
CFFF 平台,全稱 Computing for the Future at Fudan。
這個名字被王堅解讀為 " 計算,因為在復旦而創造了未來 "。
兩個計算集群共同組成了 CFFF 平台——
一個是面向高精尖研究的專用高性能計算集群" 近思 " 一号,部署部署在復旦江灣校區;
另一個是面向多學科融合創新的 AI for Science 智能計算集群" 切問 " 一号,托管在 1500 公裏外的内蒙古阿裏雲烏蘭察布數據中心。
兩者分隔千裏,但同聲相應。
復旦大學浩清教授、人工智能創新與產業研究院院長漆遠對 CFFF 平台做了進一步介紹。
據他講述,基于百 G 高速數據傳輸網、阿裏雲大規模異構算力融合調度技術、分級存儲技術、AI 與大數據一體化技術,兩個計算集群練成了一台真正意義上的 " 超級計算機 "。
何以見得?
最直觀的表現,復旦大學四校區的所有實驗設備都能高速接入 CFFF 平台,做到異構算力統一管理,計算任務統一調度,滿足不同應用場景下的科學智能研究與應用需求。
此外,CFFF 平台還擁有國内高校最大規模的多級數據冷熱分層存儲集群,解決了海量科研數據無法長期備份的痛點,并支持雲上高速傳輸。
舉個例子,以往 PB 級科研數據從復旦校内傳到西部數據中心需要兩周,如今當天就能完成。
有賴于公共雲模式,跑在 CFFF 平台上的項目可享受到超千卡并行的智能算力,千卡并行的有效算力達到行業領先的 92%,可拓展性達到萬卡,萬卡并行有效算力也可達 90%。
同時,CFFF 平台可實現年平均 PUE 小于 1.2,每年節省總電力超過 2000 兆瓦時,年均節碳量達 1500 噸。
可以説是非常低碳了。
復旦校方透露道,CFFF 平台從開始建設的第一天起,就收到來自復旦不同院系的多種研究需求,如生命科學、大氣科學、材料科學領網域,以及金融系統分析等社會科學研究領網域。
平台上的雲原生與低代碼工程化 AI 開發平台,進一步降低了 AI 與科研融合的門檻。
目前,CFFF 平台上的第一個科研成果已經誕生,并正式對外發布。
成果是45 億參數量的中短期天氣預報大模型,來自復旦人工智能創新與產業研究院李昊團隊。
在公開數據集上,該模型預測效果首次達到業界公認的 ECMWF(歐洲中期天氣預報中心)集合平均水平,并将預測速度從原來的小時級縮短到了 3 秒内。
而這樣一個 45 億參數的大模型,在 CFFF 平台上完成訓練,用時只需 1 天。
中國科學院院士、復旦大學校長金力在現場提到:
CFFF 設計成了開放的體系,我們非常歡迎產學研創新以及校企合作。但是從另一點來説,CFFF 的建立表面上來看是解決算力問題,實際上不完全是。
它還必須解決兩件事情,一是" 讓原來不會用 AI 工具的人,去用最好的 AI 工具 ",二是" 讓原來不懂 AI 的人去懂 AI"。
7 名院士擔任顧問,大賽 7 月 25 日開賽
" 當前,AIforScience 成為熱點領網域。" 金力将 CFFF 稱為復旦推動基礎研究範式變革中的關鍵利器,"AI 與科學的融合發展,開拓了科研的新範式。"
CFFF 平台啓動儀式現場,首屆世界科學智能大賽也宣布啓動。
從現場獲悉,大賽由復旦聯合阿裏雲天池平台、中國電信、中國信通院雲大所等舉辦。
面向全球開放,拟邀請全球五大洲數千支隊伍參賽,選手不限國籍年齡,高校、科研機構、企業、個人均可自由組隊。
包括金力(生命科學家)、王堅(雲計算專家)在内,共有 7 名院士擔任本次大賽的顧問。
共設定 5 大賽道,分别是生命科學、大氣科學、材料科學、流體力學、量子化學,賽題基于 CFFF 平台設計。
其中,生命科學賽道,以生物學年齡評價與老年病風險預測為賽題,通過測量和分析生物體内特定指标或生理過程的狀态,評估個體的生理年齡和健康狀況。
大賽為參賽者開放了近萬樣本的個體甲基化數據以及其年齡、性别及老年病患病信息,期望參賽者能夠基于甲基化測量對健康個體的年齡給出準确的預測。
而材料科學賽道,以 MOF 材料的預測合成為切入點,探求計算成本更低、更高效、更精确的求解方法。
大賽整理了大量文獻等,形成了 1500 種 MOF 材料的合成條件數據集,期待參賽選手基于此建立預測模型,準确地預測 MOF 材料的合成條件。
賽程顯示,7 月 25 日大賽初賽開啓,9 月底,各賽道分批開啓復賽。
遴選出的優秀隊伍将在 11 月進行線下答辯,角逐最終名次。
大賽設定 100 萬元的獎金池,各賽道冠軍獎金 10 萬元。
所有進入復賽的選手都将獲得 CFFF 平台算力免費支持。此外,阿裏雲也将提供了 ML 平台 PAI 的免費試用,及算力產品計算資源。
大賽網站:
https://tianchi.aliyun.com/2023CFFFPrize