今天小編分享的科技經驗:中國電信開源星辰AI大模型:央企中首個完成LLM研發和開源的選手誕生,歡迎閲讀。
沒想到啊,開源大模型家族裏,居然擠進來一位特别的選手:
來自央企,身份為運營商。
具體是誰?
中國電信。
所謂 " 不鳴則已,一鳴驚人 ":
中國電信集團成立的中電信人工智能科技有限公司憑借全自研算法、精心打造的高質量數據集,發布星辰 AI 大模型。
其目前開源的版本在大模型知名榜單 CSL 上排名第五、GAOKAO 排名第七、AGIEval 排名第八。
什麼概念?和科技公司出品的專業選手們站在了同一陣營。
現在,随着其代碼和模型在 Github、Gitee、HuggingFace 三個平台一并可獲取使用,中國電信也順勢成為央企中率先完成大模型研發和開源的選手。
加上不久之前,AI 領網域 Fellow 大滿貫科學家李學龍加盟,出任電信 CTO ——
所以作為率先交卷大模型的央企和運營商,在大模型研發這件事上,它究竟有哪些驚豔之處?
電信大模型長什麼樣?
早在去年五月中旬,經過數十版模型訓練與優化,中國電信就完成了百億參數星辰 AI 大模型穩定版本的訓練。
正式發布則是在去年 7 月的人工智能科技大會上,為運營商中首個。
很快,歷經又一輪迭代,星辰 AI 大模型的千億參數版本于 11 月發布。
它最大可支持 96k 的上下文推理,相比第一代,長文生成和理解能力提升 30%。
此外,模型幻覺問題也降低了 40%,并在模型量化方面取得突破——訓練顯存降低 50% 的同時,推理速度提升 4.5 倍。
具體來看,星辰 AI 大模型具備以下諸多通用能力,包括:
常識問答、寫作、文本翻譯潤色 / 結構化任務、邏輯推理、數學、輔助代碼生成……
模型本身則提供了近 100 個 prompt 模版任務,包括營銷宣傳、PPT 制作、評價分析、行業分析等,方便大夥拿來就用:
在這之中,星辰 AI 大模型最大的亮點或者最擅長的地方就是長文寫作。
根據用户提示詞,它可以準确地生成結構完整、邏輯清晰的文章,平均字數超過 1500 字。
據統計,在電信内部,星辰 AI 大模型在此任務上的有效采納率可達 85.7%,和國内其他眾多大模型相比,表現相當出色。
而除了長文寫作這一大亮點,星辰 AI 大模型還具備強大的插件功能,可以解決更為復雜、多場景的任務。
例如搜索插件,用于支持各種常識問答,标注來源,使結果更為準确。
在插件的具體調用上,電信設計了非常細致的數據格式,可以使得模型深刻理解用户任務,并依照嚴格的流程執行推理,最終得出答案。
如果再配合上思維鏈技術,星辰 AI 大模型的能力還能更進一步。
據介紹,在中國電信企業内部以及對外企事業部門客户的業務中,星辰 AI 大模型已實現初步落地,在網絡故障分析和客户服務業務中展現出巨大價值。
對于前者,星辰 AI 大模型通過對大量故障數據的學習和分析,能夠迅速識别潛在問題并提供有效的解決方案,從而提高網絡運維的效率和質量。
對于後者,新一代智能客服系統在接入星辰 AI 大模型之後,應答能力大幅提升,問題覆蓋率超過 95%,加上還能自動對客户服務進行準确總結,因此還能進一步優化服務流程,提高用户滿意度。
對于此次開源,中國電信率先釋出的則是其百億參數版本,外推長度 32k,底層代碼、算法邏輯等全部公開。
大夥既可以直接調用大模型,也可以根據自身業務需求對大模型進行微調或個性化設定——支持 deepspeed 微調框架、int8&&int4 模型量化、升騰卡訓推。
或者還可以用它加載自己的知識庫或數據,從而調整出更符合自身業務需求、更加個性化的理想結果。
具體來看,和前面介紹的還不同,電信将星辰 AI 大模型能力分門别類,此次一共開源的是 5 個細分大模型。
除了最基礎的星辰語義大模型,還包括:
星辰語音大模型 ,它具備關鍵詞檢測、超自然語音合成、語音識别、語音翻譯、聲音匿名、AI 作曲和語音生成七大類算法能力,可用于音頻會議紀要整理、智能語音機器人等場景;
星辰多模态大模型,支持文生圖、圖生圖,可用于内容創作、廣告營銷等;
啓明網絡大模型,專攻網絡運營,側重雲網運營領網域專業知識查詢;
星辰經分大模型,主攻數據分析和報告生成。
可以説相當全面了。
算法純自研,核心優勢在數據
有點驚喜有點意外,作為一家運營商,電信在大模型研發這件技術活上拿出态度,走了純自研方式:
背後搭建了一支 800 人的研發團隊,碩博占比超 54.9% 的那種。
他們在模型結構、數據預處理、模型預訓練以及人類偏好對齊、降低幻覺等方面都進行了優化,注入了電信自己的 " 靈魂 "。
具體來看,在模型結構設計上,團隊采用解碼器架構(decoder-only)并改進旋轉位置編碼(RoPE),再結合自适應插值的 NTK-aware + LogN 算法,大幅提高了模型的外推能力,使其支持超長上下文(96k)理解。
在模型訓練上,為了保證穩定性,團隊又使用了 Embedding LayerNorm 算法,在嵌入層添加額外的 RMSNorm 層,并在每個 Transformer 子層前加入 RMSNorm 層。
為了提升訓練和推理速度,他們又采用了 SwiGLU 激活函數替代傳統 GELU 激活函數的方式,将隐藏層大小設計為 8/3d 而非 4d。
再通過将 RoPE 與 FlashAttention-V2 相結合,模型的訓練速度進一步提高了 20% 以上。
在微調階段,團隊的做法則是在 embedding 層加入噪聲擾動來緩解過拟合,進一步提升模型問答質量。
人類指令對齊上也下了不少功夫,經過一系列 bge 向量化 + 聚類以及人類标注的方式,團隊得到完整、全面的基于人類偏好的排序數據。
然後又多次嘗試 PPO、RRHF 和 DPO 在内的人類偏好排序數據訓練策略,最終選擇 DPO 進行訓練,實現人類偏好對齊,由此提升模型生成答案的安全性和規範性。
最後,在大模型幻覺問題上,中國電信研發團隊也給出了一套完整的解決方案:包括關鍵信息注意力增強技術、多輪知識記憶和強化技術、知識圖譜強化技術以及知識溯源,最終将大模型幻覺降低了 40%。
——技術上的努力説了這麼多,在造大模型這件事上,電信到底有哪些優勢呢?
最為核心的就是數據。
數據的重要性對于大模型的性能不言而喻,而當下,中文互聯網數據由于數據孤島、AI 生成污染等問題存在獲取困難、質量堪憂等情況。
在此,電信除了大量來自百科、書籍、司法、醫藥等維度的通用數據,也憑借自身業務積累了不少行業數據。
這使得電信大模型的中文訓練數據超過 25TB,中文總 token 量超 8 萬億。
經過 Knesey-Ney 技術過濾、Minihash+Jaccard 排重,以及幾百人專業标注團隊的人工标注,這批數據化為非常高質量的數據集,為星辰 AI 大模型算法訓練打下堅實基礎。
(值得一提的是,電信也将開源其中大部分數據,值得大夥期待一波。)
數據集有了,其次,算力也不缺:
對于大模型訓練所需的極大算力需求,中國電信通過 "2+31" 天翼雲布局基礎,構建了全國四級超大算力底座來滿足。
簡單來説就是來自集團的 2 大核心算力集群(包含近萬台 GPU)與 31 個省級算力集群(同樣近萬台 GPU)進行雲邊端協同,實現算力資源全國統籌調度管理,AI 能力一鍵下發,多個大模型進行同時訓練也可滿足。
最後,再加上前面所講的一系列核心算法自研和優化,電信憑 " 數算法 " 三大強力後盾,甩出了星辰大模型這份成績單。
現在,更是将它豪氣開源,和專業選手一起,敢于直接交給公眾來檢驗。
那麼,問題來了——
為什麼能做到央企中第一個發布大模型?
首先,是态度上重視。
在大模型和 AI 技術上,中國電信有基礎有布局。
除了星辰 AI 大模型,在去年 11 月舉辦的數字科技生态大會上電信還發布了 12 個行業大模型,并推出 " 星辰 MaaS 生态服務平台 ",實現定制化服務。
以及可開箱即用的大模型生產應用流水線產品 " 慧聚 ",它預置多種基礎大模型、開發環境、數據訓練工具等,使得電信不僅自己生產大模型,還提供能力幫其他企業開發大模型。
而這一切,基于的是電信已歷經 10 年的 AI 能力建設。
在軟體算法領網域,中國電信的人臉識别、動作檢測、對象跟蹤檢測等多項技術斬獲世界大獎,數字人技術所支撐的智能客服產品也在國際賽事 DCASE2023 task-A 賽道中獲得季軍,此外還與華為聯合發布了 AI 高性能推理框架 UniStream。
這無比體現着中國電信扎實的 AI 基礎實力。
其次,有人才有大牛。
如前文介紹,為了搭星辰 AI 大模型,中國電信快速組建了一支近 800 人的研發團隊,成員來自國内外頂尖高校,如清華、北大、斯坦福和哥倫比亞等,平均年齡 31.79 歲。
其中純技術人員占比 75%,碩博占比超 54.9%,這波人才幫助電信在對内對外業務中取代外部算法能力,實現核心算法能力自主可控。
在廣納基礎人才之外,電信也坐擁一批大牛,其中包括去年年底全職加盟中國電信擔任 CTO 以及首席科學家的李學龍。
作為 AI 領網域 Fellow 大滿貫選手、" 多模态認知計算 " 的提出者,他将帶領電信人工智能研究院,繼續開展基礎、前沿研究。
最後,我們了解到,其實不止于 AI 和大模型,中國電信在很多技術上都進行了投入,并且也取得了同行優勢。
例如量子通信,中國電信不久前發布了具備 " 量子優越性 " 能力的 " 天衍 " 量子計算雲平台,此前還開通了國内規模最大、用户最多、應用最全的量子保密通信城網域網,并主導制定了中央企業第一牽頭立項的 7 項量子通信行業标準(含團标)中的 5 項。
再例如在新一代信息通信技術上,中國電信實現 " 手機直連衞星 " 全面商用,發布了全球首個支持消費級 5G 終端直連衞星雙向語音和短信的運營級產品。
可以看出,中國電信雖為傳統運營商,但在技術上一貫都很重視,并且在其中的投入可能比我們想象得還要深。
因此,對于本段提出的問題:
為什麼中國電信能做到央企中第一個發布大模型?
答案也就情理之中了。