大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

大模型的效率騰飛,彩雲科技做對了什麼?

2024-11-16 简体 HK SG TW

今天小編分享的科學經驗:大模型的效率騰飛,彩雲科技做對了什麼?,歡迎閲讀。

對于絕大多數 AI 創業者來説,AGI 的技術信仰是月亮,商業化能賺到錢的應用則是六便士,而一家中國公司,卻将月亮和六便士都握在了手中。

彩雲科技的 CEO 袁行遠,一直将 AGI 作為自己的終生目标。大模型被認為是通往 AGI 之路,所以彩雲科技決心為這條 AGI 之路掃清阻礙,通過優化 Transformer 架構,助力大模型效率提升,為此開發出 DCFormer 全新通用模型架構。

敢于啃最難啃的骨頭,讓彩雲科技與許多只敢停留在應用層的 AI 公司,形成了鮮明對比。

這并不意味着彩雲科技全是一群離群索居、不食人間煙火的極客。他們也打造了 AI 時代的爆款應用,如彩雲小夢、彩雲小譯和彩雲天氣。其中 2021 年上線的彩雲小夢 1.0,是全球領先的 AIRPG 平台,同時發布了海外版 Dreamily,目前已經吸引了 60% 中國大陸用户、30% 歐美用户、10% 東南亞用户,在平台上進行 AI 寫作。

可以看到,彩雲科技的 AI 商業化表現也很出色,是國内為數不多能夠實現盈利的 AI 公司。

只追求月亮會餓死,只追求商業化會活得庸俗。在 AI 的理想與現實之間,彩雲科技究竟是如何找到平衡點的?

AGI 通用人工智能,被認為是人工智能領網域的聖杯。而大模型,是目前通往 AGI 的必由之路。2023 年大模型技術火爆全球,但技術進化才剛剛開始。比如大模型的核心技術突破—— Transformer 架構,就有一系列問題有待解決。

想摘下 AGI 的聖杯,AI 行業必須先跨越 Transformer 架構的瓶頸:

1. 效率瓶頸。大模型在并行計算過程中需要頻繁重寫檢查點(checkpoint),延長了訓練周期。增強 Transformer 架構的計算效率,可以大幅縮減計算時間,提升大模型的開發效率。

2. 能源瓶頸。大模型參數規模邁向超萬億,會消耗巨額電力資源,有新聞報道,一個十萬億或五十萬億參數的大模型就能用光一座小城市的所有電量。為了減少耗電量和能源負擔,提升大模型的計算效率,縮短計算時間,已經刻不容緩。

3. 普及瓶頸。一味追求 scale-up 的大模型技術,對算力、存儲、傳輸、運維等各個資源的需求也直線上升,會帶來高昂的落地成本和部署難度。AI 的廣泛應用和普及,才能推動各行各業智能化,所以大模型必須從追求 " 變大 " 到 " 變聰明 ",底層 Transformer 架構的優化勢在必行。

正如袁行遠所説," 沒有(計算)效率的提升,AI 就是鏡花水月 "。

為了有一天人類能真正将 AGI 這枚月亮抱在懷裏,彩雲科技從一開始就瞄準了底層架構,主動擔起了優化 Transformer 架構的技術挑戰,也成為在這一領網域率先取得顯著成果的中國公司。

2024 年 5 月,彩雲科技全新大模型論文《Improving Transformers with Dynamically Composable Multi-Head Attention》發布在 arXiv 平台,并順利被 AI 頂會 ICML2024 收錄,論文評分高達 7 分,遠高于今年平均分。同時受邀在今年 7 月登台發表演講,成為 9473 篇論文中唯二斬獲 Oral 論文的中國企業,另一家是華為。

大家想必都很好奇,論文中發布的 DCFormer 架構到底有什麼過人之處?

我們可以把大模型訓練,看作是一個大型復雜任務,需要很多個打工人(注意力頭),背着自己的參數集和數據在幹活。

而 Transformer 的核心組件——多頭注意力模塊(MHA),将查找選擇回路和變換回路給綁定在一塊兒了,交給同一個注意力頭。試想一下,當一個打工人既得關注查找,又得關注變換,專注性就會受到損害,而且完成的工作大概率也跟别人有重復,這就降低了整個組織的效率。

那更合理的辦法是什麼呢?當然就是多雇些人、專事專辦呗。讓不同的 " 注意力頭 " 關注不同方面,一群專業的人靈活協作,幹的活效率更高,質量也更好。

所以 DCFormer 框架,就是給注意力頭 " 減負 ",來提高大模型的效率。

彩雲科技提出的可動态組合的多頭注意力(DCMHA),解除了 MHA 注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據輸入動态組合。這就為 DCFormer 框架帶來了幾個變化:

1. 靈活性提高。由于 DCMHA 允許根據輸入動态組合不同的查找和變換回路,讓應用了 DCFormer 的模型,能夠更靈活地處理復雜任務。

2. 表達能力提高。MHA 的固定綁定導致模型無法充分捕捉輸入數據的多個不同特性,表達能力也受到影響。DCMHA 從根本上提升了模型的表達能力。

3. 效率提高。查找和變換被固定綁定,會導致不同的注意力頭學習到相似的信息,造成功能上的重復冗餘,不僅降低了計算效率,還會浪費計算資源。通過可動态組合的多頭注意力(DCMHA)解綁之後,DCFormer 框架實現了對 Transformer 架構 1.7 — 2 倍的提升,也可以讓模型成本進一步下降。

總結一下,DCFormer 框架從底層改變了注意力頭的組合方式。如果説打破 Transformer 計算瓶頸,加速 AGI 進程,是彩雲科技的逐月之旅。那麼 DCFormer 框架,就是彩雲科技為夢想所打造的一座天梯,讓大模型在上面實現了效率、性能、成本優化等多方面的飛躍。

沿着 DCFormer 的天梯望過去,一個大模型為核心的 AI 時代,好像離我們真的不遠了。

避免這一輪大模型的 AI 浪潮走向泡沫,必須讓技術致用,形成商業閉環。賺到六便士,是 AI 獲得長期生命力的前提。

從技術到商業的轉化,彩雲科技同樣敢為人先。目前,彩雲科技的 AI 應用已經獲得了在 DCFormer 架構的一系列助益,有望實現商業騰飛。

比如既有能力的大幅更新。作為國内首個分鍾級天氣預報,街道級定位精度的天氣預報服務,彩雲天氣基于 DCFormer 帶來的模型效率提升,有望在未來将分鍾級的高準确率預測時長從 2 小時擴展到 3 — 12 小時,能力進一步提升。

再比如全新能力的拓展。彩雲科技旗下 AI RPG 平台彩雲小夢,采用了全新的 DCFormer 架構,V4、V5 版本有望擴展到 2000-5000 字的創作,再通過故事工程優化,目标是一年内可以輕松創作出達到專業作家水平的 5 萬字長度中篇故事,同時小夢角色扮演的故事體驗,也能達到專業編劇的水平。憑借優異的性能,彩雲小夢在小説續寫、AI 陪伴等領網域,已經實現了用户使用時長斷崖式的領先。

不難看到,DCFormer 架構為彩雲科技的 AI 產品化、AI 商業化,奠定了騰飛的基礎條件。也證明,唯有基于底層技術創新,AI 產品才能避免同質化競争,打造出極具説服力和差異化的產品體驗,從而建立碾壓式的市場優勢。

大模型爆火以來,國外打底層創新、國内做應用改良,似乎成了慣例。

中國 AI 企業不敢向底層創新下大力氣,更希望低頭撿起六便士,并不是不願意抬頭追逐月亮,而是技術代際的現實差距、算力資源受限的實際情況、商業回報的約束和壓力,都是切實存在的。

而提到那些敢于逐月的 AI 公司,我們第一時間想到的是國内科技巨頭,很少人知道彩雲科技是國内最早做 LLM(大語言模型)的公司之一,而且敢于追逐 AGI 的夢想,向底層技術發起衝鋒。

既能仰頭逐月,也能低頭搞好商業化,彩雲科技可以作為一個國内 AI 公司找到技術和商業平衡點的成功樣本。

彩雲科技區别于主流 AI 公司的獨特之處,在于其是個少見的 " 三有少年 ":

有信仰。作為一個體量較小的科技公司,彩雲科技利用效率更高的模型架構,在與世界頂級人工智能企業的對抗中取得優勢。如果沒有 AGI 的技術信仰,一個小公司是想不到、不敢做優化 Transformer 架構這件事的。

有技術產品化的能力。Transformer 架構由谷歌率先提出,卻被 OpenAI 摘了桃子,ChatGPT 成為這一輪 LLM 裏程碑,這得益于 chatbot 聊天機器人功能的產品化程度更高,更貼近大眾。彩雲科技的成功也在于此,并沒有單純地只發 paper,而是盡快将 DCFormer 與產品集成,讓技術盡快轉化為產品落地。這種技術產品化的能力,可以讓底層創新快速投向市場,形成良性循環。

有長坡厚雪的環境。創新,需要長期耐心地投入;產品化,需要深入行業和用户之中的經驗和感覺。這就是巴菲特所説的 " 長坡厚雪 ",要有足夠強的盈利和長期增長的賽道。這是很多 AI 初創企業所缺乏,但彩雲科技恰好具備的。十年間,彩雲科技打造的數款足夠成熟和商業化的 AI 產品,為技術創新營造了長坡厚雪的良好環境。

" 三有少年 " 彩雲科技,找到了理想與現實之間的平衡點,正沿着 DCFormer 架構的天梯,朝着 AGI 的月亮飛翔。這條彩雲逐月之路,也讓我們看到了 AI 產品化、商業化的清晰增長路徑。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們