對話彩雲科技CEO袁行遠：10年AI狂飙，中國大模型發展不應只有OpenAI一條路

今天小編分享的科技經驗：對話彩雲科技CEO袁行遠：10年AI狂飙，中國大模型發展不應只有OpenAI一條路，歡迎閱讀。

（圖片來源：pixabay）

随着 Scaling Law（尺度定律）遭遇瓶頸，GPT-5 訓練時間推遲，所以全球 AI 技術領網域的競争正在從 AI 模型 " 卷 " 向 AI Agent 模型應用層面。

北京時間 11 月 15 日，美國 OpenAI 公司發布 ChatGPT 桌面版新功能，支持理解、讀寫 VS Code、Xcode 等工具以開發應用。

早前有消息指，OpenAI 即将推出代号為 "Operator" 新 AI Agent（代理）應用，可模仿人類操作執行編寫代碼、預訂酒店、機票等任務；同時，谷歌 AI 大模型 Gemini 移動版登陸蘋果 App Store 應用商店上；此外，DeepL 則推出實時文本翻譯產品 DeepL Voice，目前公司估值已超 20 億美元。

相比海外，國内 AI Agent 應用正在迅速發展，模型和應用正在同步突破。

作為快手創始人宿華最青睐的創業公司之一，成立十年的國内 AI 應用公司彩雲科技，于 11 月 13 日發布業内首個基于 DCFormer 架構的通用大模型 " 雲錦天章 "，可實現在虛構世界觀的基礎上，賦予小說人物編程、數學等基礎能力，擁有長文擴寫、縮寫等能力，目前已經開始向 C 端和部分中小企業端提供服務。而這是最新一款非 Transformer 架構的 14B（140 億）參數模型。

同時，基于 DCFormer 架構，彩雲科技還發布旗下 AI RPG 平台產品 " 彩雲小夢 "。

會後，彩雲科技 CEO 袁行遠對钛媒體 App 等表示，"（雲錦天章是）世界最強的小說續寫通用模型。" 他認為，利用新的模型結構優化，用 1% 的資源達到了千億模型同等效果，疊加後處理工作流到達 AI 的下個階段，才有可能真正做到 GPT-5。

" 大模型基座調優（Pre-trained Model）這個事情，過去 7 年學術界、工業界（大家）都沒什麼進展，中國 200 多個大模型公司有哪一個不是 Transformer 架構？只有一個公司不是 Transformer，就是彩雲科技，而且我證明了這個東西它具有通用人工智能（AI）的潛力，且用更少的能源做到相同的效果。如果用 1/10 資源實現 Transformer 相同效果，那我們就不用百億千億參數規模訓練。其他所有公司都用的是谷歌 Transformer，因此只有彩雲科技才能稱之為‘全鏈路大模型公司’。" 袁行遠表示，中國不是做不出來 ChatGPT，而是需要時間迎頭趕上，最終得到好的結果。

彩雲科技聯合創始人、CEO 袁行遠

"100 萬 DAU、ROI 為正，是 AI 應用的死亡線 "

彩雲科技成立于 2014 年，是研發多款消費級應用產品的 AI 公司。

經過多年發展，彩雲科技已孵化彩雲天氣、彩雲小譯、彩雲小夢三款面向 C 端用戶的 AI 產品，產品間接覆蓋人數超過 6 億人，并通過實施付費訂閱等商業模式，實現了 AI 技術商業化落地。可以說，彩雲科技是國内為數不多能夠實現盈利的 AI 公司。

創立彩雲科技之前，袁行遠曾在阿裡巴巴從事算法方面的工作，并獲山東科技大學數學系學士學位，清華大學經濟管理學院碩士學位。然而，他從小就喜歡研究氣象知識，因此并不希望安于現狀，2012 年，在集智俱樂部一場讀書會上，與兩位有相同想法的小夥伴一同創立了彩雲科技。

袁行遠坦言，公司創立一開始就是在想把一款天氣工具進行 " 付費 "，這在當時也是極少見的。而過去 10 年來，彩雲科技的彩雲天氣、彩雲小譯、彩雲小夢都以付費模式存在，實現了企業健康的商業循環。

其中，彩雲天氣是一款天氣預測的 APP，特色是通過 AI 技術 " 三維時空卷積神經網絡 "，實現國内首個分鍾級天氣預報，精度可以定位在街道級，C 端累計用戶超過 5000 萬，DAU 達到百萬量級；彩雲小譯 2017 年上線，是全球首個中英同傳 APP，MAU 在百萬上下，有 2.7 萬的付費用戶，500 萬 APP 下載量，每天 10 億翻譯量；彩雲小夢則于 2021 年上線 1.0 版本，是一款 AI 寫小說的產品，同時發布海外版 Dreamily，如今更新 3.5 版本—— AI RPG 平台，擁有 AI 對話、世界設定創作等功能，而且可以進行虛拟人物對話交流，日產數億字。目前 60% 用戶在中國大陸，40% 為海外用戶。

" 根據我做彩雲天氣的經驗，你要做到一個确實能夠提供出增益價值的產品，然後你花很多年的時間去培養這個增益價值的習慣性，再在這個基礎上去做增值服務，通過它來收取一定的會員費用，這個是比較合理的一種方式。我很喜歡簡單的商業模式，因為我們做技術的嘛，就是發揮自己擅長的部分，那簡單的商業模式就是我提供一個服務，你願意為這個服務付費。" 袁行遠認為，這是一種良性商業模式。

袁行遠強調，100 萬 DAU（每日活躍用戶）、收入數億元、ROI 為正，這是他給自己定下一款 AI 應用的死亡線，從而維持一家公司或一款大模型的研發迭代。

" 我覺得能跑到 100 萬 DAU，是我自己給自己定的一個及格線或者生死存亡線吧。如果有 100 萬日活，那麼你就是一個社區創業平台，這個應該是能夠活下來，并且能夠擁有至少幾億收入，從而能持續維持大模型的研發。當然，這是否意味着 100 億美元以下就不要做大模型了，也不是這個意思，全世界可能一共就那幾個人（有百億美金）。所以，這中間有一種‘平衡’（balance），這是一個度，這個遊戲也許在 1 億或 1000 萬美金量級之上，就能夠支持這個模型研究的迭代。" 袁行遠稱。

與此同時，當前彩雲科技全力實現新的大模型技術研發。

早在 2017 年，彩雲科技就已經開始做 NLP 和大模型方面的工作，是國内最早做 LLM（大型語言模型）的公司之一。

近期，彩雲科技團隊提出基于可動态組合的多頭注意力（DCMHA）的 DCFormer 框架，替換 Transformer 核心組件多頭注意力模塊（MHA），解除 MHA 注意力頭的查找選擇回路和變換回路的固定綁定，可根據輸入動态組合，從而提升模型表達能力，相比 Transformer 架構性能提升 1.7 倍 -2 倍。今年 ICML 會議上，彩雲科技團隊的 3 篇論文，在錄用平均分為 4.25-6.33 的情況下，獲得平均 7 分這一高分。

11 月 13 日活動上，袁行遠表示，Transformer 架構距離 " 理想模型架構 " 還有很大的提升空間，除了堆算力堆數據的 " 大力出奇迹 " 路線，模型架構創新同樣大有可為。往小了說，在大模型領網域，利用效率更高的模型架構，小公司也可以在與世界頂級 AI 企業的對抗中取得優勢。往大了說，模型效率的提升，可以有效地降低 AI 更新迭代的成本，加速 AI 時代的到來。

"Scaling Law 告訴我們，随着算力的提升，模型更大、數據更多，模型效果會越來越好，但與之相應的，能耗也會越來越高，在 Scaling Law 失效，AI 實現之前，或許我們地球的能源就已經無法支撐了。" 袁行遠表示，" 沒有效率的提升，AI 就是鏡花水月。"

實際上，外界最想知道袁行遠和他的彩雲科技的一件事是，宿華是如何投資的？

成立至今，彩雲科技共進行了 5 輪正式融資，除種子輪由袁行遠，及他的朋友、同學提供外，首筆天使輪融資，來自田溯寧的雲天使基金、寬帶資本；五源資本的 A1 輪融資，估值 3000 萬美元；快手提供 A2 輪融資，投前估值翻倍，達到 6000 萬美元；B1 輪來自大灣區家園共同基金，2021 年完成。

去年，快手創始人宿華個人投資了彩雲科技 B2 輪，投前估值達到 1.2 億美元。

袁行遠表示，很多投資人對其技術一線判斷很強，盡管他不是做大模型，但其技術判斷是很敏銳的，他說 " 這個東西非常好，但我擔憂的是社會以後怎麼辦 "。最終，袁行遠獲得了上述投資人青睐，也讓彩雲科技獲得了更多的訓練大模型 " 彈藥 "。

" 也有朋友說，為什麼中國沒有出 ChatGPT，原因是什麼呢？因為中國程式員水平不行。我覺得不能說是中國程式員水平不行；還有人說，是因為簡體中文語料不行，我們是全球使用語言最多的、母語最多的人，我們創造的東西是最多，我覺得絕對不能說是我們語料不行，也不是中國程式員不行。我認為需要給我們一些時間，迎頭趕上，最終我們會得到一個好的結果。" 袁行遠表示。

展望未來，袁行遠已下定決心，将不遺餘力地持續加大對 DCFormer 的研究與投入力度。

袁行遠強調，DCFormer 所代表的模型結構優化這條路至少能發展 10 倍成長，未來 AI 真的很有可能取代劉慈欣的《三體》寫作質量。當下，大家還是低估了 AI 的效果，如今 DCFormer 讓 1/10 的資源和參數量獲得相同效果，這有望是 GPT-5 未來發展的路線選擇。

以下是钛媒體 App 等與袁行遠之間的部分對話，經钛媒體編輯整理：

钛媒體：14B 或 7B 參數的模型是否有 " 智能湧現 " 能力？因為有人說，基于 Transformer 的模型可能會需要千億規模才有湧現。

袁行遠：（湧現能力是）有的。我已經證明了這是偽命題，智能湧現大概在 6B（60 億參數）左右，（這是）學界的認知。

钛媒體：那你們是怎麼減少 " 幻覺 " 問題？是對齊還是其他什麼手段？

袁行遠：從模型結構研究的這個角度講，你可以去不斷地 check（檢查）這個事情，包括增加事實記憶力、互聯網尋找、減少錯誤輸出等方法。這是所謂的工作流 check。

但我覺得現在問題不是 " 幻覺 "，而是算力不足以去 cover（覆蓋）住你的問題規模，比如我要會診，可能要很多人開會讨論倆小時去決定這個疑難雜症是什麼病，人都需要很長時間，AI 更加需要算力支持。我覺得這個不是幻覺問題，而是 " 算力不夠 " 的問題。

幻覺問題的話，就上述兩個方式來嘗試解決。此外，還有一點是，" 幻覺 " 問題的本質是一個所謂 " 格式多于内容 "，就是你要求大模型輸出一個符合你認知的格式，它才有幻覺，否則它不知道，而人類大部分來講會說不知道，你只要讓大模型學會說不知道，那它的幻覺就會變少，所以這裡面可能存在 " 應答率 " 和内容輸出真實性的一個 " 博弈 "。

對于雲錦天章和彩雲小夢來說，在小說創作這一部分，幻覺問題不會這麼嚴重，甚至于它是一個正向作用。AI 腦洞更大一些，可能會對作者更好，所以我們選了這樣一個 " 賽道 "。

钛媒體：你如何看待雲錦天章大模型的商業化？你們需要把 C 端的 AI 服務更快獲得收入嗎？

袁行遠：我做彩雲天氣的經驗是，你要做到一個确實能夠提供出增益價值的產品，然後花很多年時間去培養這個增益價值的習慣性。再在這個基礎上去做增值服務，通過它來收取一定的會員費用，這個是我比較喜歡的一個方式。

因為我們做技術的嘛，就是發揮自己擅長的部分，那簡單的商業模式就是我提供一個服務，你願意為這個服務付費，而我就努力提高這個服務，你就一直為我這個好的服務付費，這個就很适合我。因為我們現在公司第一大收入就來自會員的連續訂閱，我覺得這個是很好的。

還有一種新的 " 抽成模式 " 我覺得更好，你提供一個内容平台，然後這個遊戲、小說内容平台通過 AI 輔助來產生，再讓用戶向内容創作者付費，你再從平台上抽手續費，手續費的收取是源于這個内容創作消耗平台 AI 能力，你的用戶越多，你的網絡規模效應越多，規模就越大。如果是 100 萬日活的社區創業平台，至少幾個億的收入，（企業）應該是能夠活下來的。

當然你說 100 億美金以下不要做大模型，這也不現實，全世界可能一共就那幾個人，那競争就非常少，但如果你一個人自己硬要去做大模型，也不适合，所以這中間其實是有一個 " 度 "，也許至少在 1 億或 1000 萬美金量級上，可以支持大模型結構研究迭代。

（本文首發于钛媒體 App，作者｜林志佳，編輯｜胡潤峰）