今天小編分享的科技經驗:對話彩雲科技CEO袁行遠:10年AI狂飙,中國大模型發展不應只有OpenAI一條路,歡迎閲讀。
(圖片來源:pixabay)
随着 Scaling Law(尺度定律)遭遇瓶頸,GPT-5 訓練時間推遲,所以全球 AI 技術領網域的競争正在從 AI 模型 " 卷 " 向 AI Agent 模型應用層面。
北京時間 11 月 15 日,美國 OpenAI 公司發布 ChatGPT 桌面版新功能,支持理解、讀寫 VS Code、Xcode 等工具以開發應用。
早前有消息指,OpenAI 即将推出代号為 "Operator" 新 AI Agent(代理)應用,可模仿人類操作執行編寫代碼、預訂酒店、機票等任務;同時,谷歌 AI 大模型 Gemini 移動版登陸蘋果 App Store 應用商店上;此外,DeepL 則推出實時文本翻譯產品 DeepL Voice,目前公司估值已超 20 億美元。
相比海外,國内 AI Agent 應用正在迅速發展,模型和應用正在同步突破。
作為快手創始人宿華最青睐的創業公司之一,成立十年的國内 AI 應用公司彩雲科技,于 11 月 13 日發布業内首個基于 DCFormer 架構的通用大模型 " 雲錦天章 ",可實現在虛構世界觀的基礎上,賦予小説人物編程、數學等基礎能力,擁有長文擴寫、縮寫等能力,目前已經開始向 C 端和部分中小企業端提供服務。而這是最新一款非 Transformer 架構的 14B(140 億)參數模型。
同時,基于 DCFormer 架構,彩雲科技還發布旗下 AI RPG 平台產品 " 彩雲小夢 "。
會後,彩雲科技 CEO 袁行遠對钛媒體 App 等表示,"(雲錦天章是)世界最強的小説續寫通用模型。" 他認為,利用新的模型結構優化,用 1% 的資源達到了千億模型同等效果,疊加後處理工作流到達 AI 的下個階段,才有可能真正做到 GPT-5。
" 大模型基座調優(Pre-trained Model)這個事情,過去 7 年學術界、工業界(大家)都沒什麼進展,中國 200 多個大模型公司有哪一個不是 Transformer 架構?只有一個公司不是 Transformer,就是彩雲科技,而且我證明了這個東西它具有通用人工智能(AI)的潛力,且用更少的能源做到相同的效果。如果用 1/10 資源實現 Transformer 相同效果,那我們就不用百億千億參數規模訓練。其他所有公司都用的是谷歌 Transformer,因此只有彩雲科技才能稱之為‘全鏈路大模型公司’。" 袁行遠表示,中國不是做不出來 ChatGPT,而是需要時間迎頭趕上,最終得到好的結果。
彩雲科技聯合創始人、CEO 袁行遠
"100 萬 DAU、ROI 為正,是 AI 應用的死亡線 "
彩雲科技成立于 2014 年,是研發多款消費級應用產品的 AI 公司。
經過多年發展,彩雲科技已孵化彩雲天氣、彩雲小譯、彩雲小夢三款面向 C 端用户的 AI 產品,產品間接覆蓋人數超過 6 億人,并通過實施付費訂閲等商業模式,實現了 AI 技術商業化落地。可以説,彩雲科技是國内為數不多能夠實現盈利的 AI 公司。
創立彩雲科技之前,袁行遠曾在阿裏巴巴從事算法方面的工作,并獲山東科技大學數學系學士學位,清華大學經濟管理學院碩士學位。然而,他從小就喜歡研究氣象知識,因此并不希望安于現狀,2012 年,在集智俱樂部一場讀書會上,與兩位有相同想法的小夥伴一同創立了彩雲科技。
袁行遠坦言,公司創立一開始就是在想把一款天氣工具進行 " 付費 ",這在當時也是極少見的。而過去 10 年來,彩雲科技的彩雲天氣、彩雲小譯、彩雲小夢都以付費模式存在,實現了企業健康的商業循環。
其中,彩雲天氣是一款天氣預測的 APP,特色是通過 AI 技術 " 三維時空卷積神經網絡 ",實現國内首個分鍾級天氣預報,精度可以定位在街道級,C 端累計用户超過 5000 萬,DAU 達到百萬量級;彩雲小譯 2017 年上線,是全球首個中英同傳 APP,MAU 在百萬上下,有 2.7 萬的付費用户,500 萬 APP 下載量,每天 10 億翻譯量;彩雲小夢則于 2021 年上線 1.0 版本,是一款 AI 寫小説的產品,同時發布海外版 Dreamily,如今更新 3.5 版本—— AI RPG 平台,擁有 AI 對話、世界設定創作等功能,而且可以進行虛拟人物對話交流,日產數億字。目前 60% 用户在中國大陸,40% 為海外用户。
" 根據我做彩雲天氣的經驗,你要做到一個确實能夠提供出增益價值的產品,然後你花很多年的時間去培養這個增益價值的習慣性,再在這個基礎上去做增值服務,通過它來收取一定的會員費用,這個是比較合理的一種方式。我很喜歡簡單的商業模式,因為我們做技術的嘛,就是發揮自己擅長的部分,那簡單的商業模式就是我提供一個服務,你願意為這個服務付費。" 袁行遠認為,這是一種良性商業模式。
袁行遠強調,100 萬 DAU(每日活躍用户)、收入數億元、ROI 為正,這是他給自己定下一款 AI 應用的死亡線,從而維持一家公司或一款大模型的研發迭代。
" 我覺得能跑到 100 萬 DAU,是我自己給自己定的一個及格線或者生死存亡線吧。如果有 100 萬日活,那麼你就是一個社區創業平台,這個應該是能夠活下來,并且能夠擁有至少幾億收入,從而能持續維持大模型的研發。當然,這是否意味着 100 億美元以下就不要做大模型了,也不是這個意思,全世界可能一共就那幾個人(有百億美金)。所以,這中間有一種‘平衡’(balance),這是一個度,這個遊戲也許在 1 億或 1000 萬美金量級之上,就能夠支持這個模型研究的迭代。" 袁行遠稱。
與此同時,當前彩雲科技全力實現新的大模型技術研發。
早在 2017 年,彩雲科技就已經開始做 NLP 和大模型方面的工作,是國内最早做 LLM(大型語言模型)的公司之一。
近期,彩雲科技團隊提出基于可動态組合的多頭注意力(DCMHA)的 DCFormer 框架,替換 Transformer 核心組件多頭注意力模塊(MHA),解除 MHA 注意力頭的查找選擇回路和變換回路的固定綁定,可根據輸入動态組合,從而提升模型表達能力,相比 Transformer 架構性能提升 1.7 倍 -2 倍。今年 ICML 會議上,彩雲科技團隊的 3 篇論文,在錄用平均分為 4.25-6.33 的情況下,獲得平均 7 分這一高分。
11 月 13 日活動上,袁行遠表示,Transformer 架構距離 " 理想模型架構 " 還有很大的提升空間,除了堆算力堆數據的 " 大力出奇迹 " 路線,模型架構創新同樣大有可為。往小了説,在大模型領網域,利用效率更高的模型架構,小公司也可以在與世界頂級 AI 企業的對抗中取得優勢。往大了説,模型效率的提升,可以有效地降低 AI 更新迭代的成本,加速 AI 時代的到來。
"Scaling Law 告訴我們,随着算力的提升,模型更大、數據更多,模型效果會越來越好,但與之相應的,能耗也會越來越高,在 Scaling Law 失效,AI 實現之前,或許我們地球的能源就已經無法支撐了。" 袁行遠表示," 沒有效率的提升,AI 就是鏡花水月。"
實際上,外界最想知道袁行遠和他的彩雲科技的一件事是,宿華是如何投資的?
成立至今,彩雲科技共進行了 5 輪正式融資,除種子輪由袁行遠,及他的朋友、同學提供外,首筆天使輪融資,來自田溯寧的雲天使基金、寬帶資本;五源資本的 A1 輪融資,估值 3000 萬美元;快手提供 A2 輪融資,投前估值翻倍,達到 6000 萬美元;B1 輪來自大灣區家園共同基金,2021 年完成。
去年,快手創始人宿華個人投資了彩雲科技 B2 輪,投前估值達到 1.2 億美元。
袁行遠表示,很多投資人對其技術一線判斷很強,盡管他不是做大模型,但其技術判斷是很敏鋭的,他説 " 這個東西非常好,但我擔憂的是社會以後怎麼辦 "。最終,袁行遠獲得了上述投資人青睐,也讓彩雲科技獲得了更多的訓練大模型 " 彈藥 "。
" 也有朋友説,為什麼中國沒有出 ChatGPT,原因是什麼呢?因為中國程式員水平不行。我覺得不能説是中國程式員水平不行;還有人説,是因為簡體中文語料不行,我們是全球使用語言最多的、母語最多的人,我們創造的東西是最多,我覺得絕對不能説是我們語料不行,也不是中國程式員不行。我認為需要給我們一些時間,迎頭趕上,最終我們會得到一個好的結果。" 袁行遠表示。
展望未來,袁行遠已下定決心,将不遺餘力地持續加大對 DCFormer 的研究與投入力度。
袁行遠強調,DCFormer 所代表的模型結構優化這條路至少能發展 10 倍成長,未來 AI 真的很有可能取代劉慈欣的《三體》寫作質量。當下,大家還是低估了 AI 的效果,如今 DCFormer 讓 1/10 的資源和參數量獲得相同效果,這有望是 GPT-5 未來發展的路線選擇。
以下是钛媒體 App 等與袁行遠之間的部分對話,經钛媒體編輯整理:
钛媒體:14B 或 7B 參數的模型是否有 " 智能湧現 " 能力?因為有人説,基于 Transformer 的模型可能會需要千億規模才有湧現。
袁行遠:(湧現能力是)有的。我已經證明了這是偽命題,智能湧現大概在 6B(60 億參數)左右,(這是)學界的認知。
钛媒體:那你們是怎麼減少 " 幻覺 " 問題?是對齊還是其他什麼手段?
袁行遠:從模型結構研究的這個角度講,你可以去不斷地 check(檢查)這個事情,包括增加事實記憶力、互聯網尋找、減少錯誤輸出等方法。這是所謂的工作流 check。
但我覺得現在問題不是 " 幻覺 ",而是算力不足以去 cover(覆蓋)住你的問題規模,比如我要會診,可能要很多人開會讨論倆小時去決定這個疑難雜症是什麼病,人都需要很長時間,AI 更加需要算力支持。我覺得這個不是幻覺問題,而是 " 算力不夠 " 的問題。
幻覺問題的話,就上述兩個方式來嘗試解決。此外,還有一點是," 幻覺 " 問題的本質是一個所謂 " 格式多于内容 ",就是你要求大模型輸出一個符合你認知的格式,它才有幻覺,否則它不知道,而人類大部分來講會説不知道,你只要讓大模型學會説不知道,那它的幻覺就會變少,所以這裏面可能存在 " 應答率 " 和内容輸出真實性的一個 " 博弈 "。
對于雲錦天章和彩雲小夢來説,在小説創作這一部分,幻覺問題不會這麼嚴重,甚至于它是一個正向作用。AI 腦洞更大一些,可能會對作者更好,所以我們選了這樣一個 " 賽道 "。
钛媒體:你如何看待雲錦天章大模型的商業化?你們需要把 C 端的 AI 服務更快獲得收入嗎?
袁行遠:我做彩雲天氣的經驗是,你要做到一個确實能夠提供出增益價值的產品,然後花很多年時間去培養這個增益價值的習慣性。再在這個基礎上去做增值服務,通過它來收取一定的會員費用,這個是我比較喜歡的一個方式。
因為我們做技術的嘛,就是發揮自己擅長的部分,那簡單的商業模式就是我提供一個服務,你願意為這個服務付費,而我就努力提高這個服務,你就一直為我這個好的服務付費,這個就很适合我。因為我們現在公司第一大收入就來自會員的連續訂閲,我覺得這個是很好的。
還有一種新的 " 抽成模式 " 我覺得更好,你提供一個内容平台,然後這個遊戲、小説内容平台通過 AI 輔助來產生,再讓用户向内容創作者付費,你再從平台上抽手續費,手續費的收取是源于這個内容創作消耗平台 AI 能力,你的用户越多,你的網絡規模效應越多,規模就越大。如果是 100 萬日活的社區創業平台,至少幾個億的收入,(企業)應該是能夠活下來的。
當然你説 100 億美金以下不要做大模型,這也不現實,全世界可能一共就那幾個人,那競争就非常少,但如果你一個人自己硬要去做大模型,也不适合,所以這中間其實是有一個 " 度 ",也許至少在 1 億或 1000 萬美金量級上,可以支持大模型結構研究迭代。
(本文首發于钛媒體 App,作者|林志佳,編輯|胡潤峰)