今天小編分享的科技經驗:專訪梅濤:多名科大校友支持創業,年底前做出超越Stable Diffusion的底層視覺模型,歡迎閱讀。
機器之心報道
作者:姜菁玲
人工智能熱潮正快速點燃 AI 科學家的創業熱情。繼原京東高級副總裁周伯文離職創業後,京東另一 AI 大牛梅濤同樣在近日宣布創業。
今年春節前,梅濤告别京東集團副總裁一職,決心投身大模型創業。一個月後,HiDream.ai 成立,公司方向确定為生成式視覺多模态基礎模型與應用。
梅濤畢業于中國科學技術大學,是加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow。多年來,梅濤主要在計算機視覺和多媒體領網域建樹,是多媒體領網域獲得國際最佳論文獎最多的華人學者。目前,梅濤博士還是中國科學技術大學和香港中文大學(深圳)的兼職教授和博士生導師。
由多位中科大校友組成的投資方評價梅濤," 是一個足夠有野心,且有 CEO 才能的人 "。
正式創業前,梅濤與周伯文、何曉冬三人是京東 AI 部門的牽頭人物,負責了京東拍照購、多模态内容審核與生成、多模态數字人、智能機械臂等技術的研發。更早之前,梅濤在微軟亞洲研究院工作了 12 年,支持了微軟影像、視頻搜索與摘要、Office 圖文混排等 AIGC 項目。
從能力板塊上看,與許多 AI 科學家只擁有技術的極致長板不同,在微軟與京東這兩家世界五百強的職業經歷一定程度上為他補充了產品與市場視角。
至今,HiDream.ai 已經成立三個月。機器之心在位于北京中關村蘇州街上的 HiDream.ai 辦公室看到的 Demo 顯示,HiDream.ai 的模型不僅能夠支持文生圖,還能支持文生視頻、圖生視頻以及文生 3D 内容。
其中,文生圖產品支持輸入 Prompt 生成圖片,還能夠對任意圖片中的想要修改的部分進一步編輯。比如要求修改所生成圖片的背景、主體等。
輸入 " 小熊拉琴 ",文生視頻產品能夠生成相應的短視頻或者動圖。
輸入 " 冰激凌 ",文生 3D 產品能夠實時生成具有高度真實感冰激凌的 3D 原型。
紅杉美國所發布的《Generative AI: A Creative New World》一文中提到,世界範圍内,文生圖片、視頻、3D 領網域的技術成熟度遠遠低于文生文。在大語言模型訓練中面臨的數據緊缺、商業邊界不清晰等問題在生成式視覺模型上更為緊張。
随着全球大模型生态的二八效應逐步加劇,追随者的成本快速增長。梅濤團隊的初步目标是年底前在基礎模型上超越 Stable Diffusion 最新版本,而在產品上則要趕超 MidJourney。
以下為機器之心與梅濤的對話:
年底前超越 Stable Diffusion
機器之心:HiDream.ai 的整體目标是什麼?
梅濤:我們希望構建一個全球領先的視覺多模态基礎模型,可以用一個基礎模型實現不同模态之間的生成轉換,支持文字到圖片、文字到視頻、圖片到視頻、文字到 3D 等不同應用。我們的整體構想是模型層和應用層一起發力。
機器之心:目前許多 AI 科學家選擇在大語言模型方向創業,你在多模态視覺底層模型投入的理由是什麼?
梅濤:從大的角度看,我認為人與人的交流天然就是多模态的形式,而不僅僅只是一個文字和語言的模塊。
我們現在講語言模型,其實忽略了一點,語言模型本身就應該是多模态的,而并非僅是像目前 ChatGPT 所實現的——僅僅是文字的交流。視覺信息其實占據了我們人類每天所產生和接受的信息量的 80% 以上,因此視覺是非常重要的一種模态。
其次,我是技術出身,因此創業一定是根據自身的特長。多年以來,我們在視覺領網域做得非常深入,因此有足夠的競争力和全球視野。
雖然我們拿到算力資源開始訓練不到 8 周,但是我們短期的目标是在今年年底前,在基礎模型領網域超越 Stable Diffusion,在文生圖產品上趕超 MidJourney,我們相信自己可以做得更好。
機器之心:" 更好 " 會體現在哪些方面?
梅濤:現在大語言模型基本已經固化在 GPT 的架構上,只是大家用不一樣的訓練數據和訓練技巧。并且 GPT 架構的天花板也很高,許多模型的參數量已經接近萬億級别。
但是目前的視覺基礎模型卻還有很大的進步空間。以被應用較多的 Diffussion 模型來看,它的天花板比較低,參數量只有十幾億到二十幾億。
所以我們就在想能不能做出一個比 Diffusion 框架更好更智能的底層模型,使得現在的視覺多模态基礎模型可以從類似 GPT-2 的時代,向 3.0 甚至 4.0 時代進步。GPT-2 的時候,參數量是幾十億,GPT-3 進入了百億。
那今天的視覺(類)模型還處于 2.0 時代,有沒有哪家公司能做到百億參數,使得模型在提升自己能力的同時甚至可以出現智能湧現。
機器之心:要做到這個目标,目前有哪些限制性問題需要解決?
梅濤:首先是數據問題。市場上高質量的圖文配對以及用于視頻理解訓練的數據非常稀缺。
我們在冷啟動的情況下,目前大概有 60 億參數的訓練數據。我們希望将來產品上線後,數據能形成一個飛輪反哺到模型,這樣我們就可以實現算法和數據的雙輪驅動。
其次是模型容量問題。當下就算我們給 Diffussion 模型投喂更多的數據,因為模型容量小、天花板低,它可能也記不住這麼多的視覺信息。也就是說,即使我們擁有百億級的數據,放到現有的模型裡去訓練,可能也只能得出 10-20 億左右的參數。
所以我們會去增加一些強有力的補丁,比如說記憶增強。只有一個系統模型的容量大了,記憶力增強了,相當于我們人腦的神經元多了,這個時候你就能記住更多的信息和知識。
機器之心:算力問題您怎麼考慮?
梅濤:我不覺得算力是一個問題。
首先,對于我們來說,并不需要像大語言模型那樣需要上千甚至上萬張卡。按照要将參數做到百億這個目标去算,我們預計只需要幾百張 A100,這對我們來說不構成困難。
其次,根據摩爾定律,在不遠的将來,算力成本将會成倍降低,同時運算能力會指數增長,因此算力将不再是稀缺資源。
機器之心:你們的技術優勢是什麼?
梅濤:我們有三大技術優勢。
首先是我們在視覺信号的編碼方面有獨到的方法。視覺信号與文字信号不一樣,文字的 tokenization 相對簡單,因為每個單詞就是一個 token,并且它的語義也是相對固定的;但是從一張照片或一段視頻中去做 tokenization,則是一個很難的問題。如果用像素作為 token,則意味着爆炸式的計算量,同時像素之間的相關性也很差。
而我們采用的方法是構建一個能夠處理更高維度像素之間的視覺相關性的 Transformer 編碼器(Contextual Vision Transformer),這樣的好處是不僅能夠顯著增強視覺自注意力的學習能力,并且可以擴大視覺編碼器的感受野,使得我們學習到的視覺 token 具備更強的表達能力。
其次是模型方面的創新,我們會通過訓練一個單獨的記憶模塊,讓現有模型的記憶力得到增強,能夠接受和學習更多的視覺信息。
最後,我們希望能将現在的 Diffusion 框架在模型的深度和寬度兩個維度做得更深,通過一些工程上的精細化調整,使得我們的模型規模能上一個量級,将來可以實現更精細化的和可控的視覺内容生成。
當然,在模型本身的理論創新方面,我自己的博士生們也在努力突破瓶頸,希望在原創模型上能有所突破。
用文生圖來證明底層模型
機器之心:現在基于底層模型,你們有文生圖、文生視頻、文生 3D 内容三個具體應用,三個應用的研發節奏是怎樣的?
梅濤:整體上,我們希望做一個通用的生產力工具,之後變成一個生產力平台,最終形成一個社區,大家在社區中去共享共創。工具化驗證後,希望可以做成一個相對通用的產品線,不僅服務遊戲和營銷等相關領網域,更多其他行業的客戶可以通過調用 API 接口,或者定制模型來服務。
目前,我們是一邊做模型,一邊做文生圖產品。文生圖產品将會直接面向市場,我們正在與一些大行業客戶旗下的設計師共同合作打磨產品,預計在 7 月底正式上線,年底前将實現規模化的實施。另外,文生視頻我們會同步做,不過可能會在年底前推出。文生 3D 内容相對優先級較後,我們保持探索。
機器之心:為什麼文生圖產品的優先級是最高的?
梅濤:原因有三點。
第一,文生圖是做好文生視頻和 3D 的基礎,如果沒有好的文字到影像的模型,那我們也很難做好文字到視頻和 3D,因此文生圖是基礎。
第二,我們希望用文生圖的產品來驗證自己的底層模型能力和商業化路徑,也可以在效果上很快就能做得比現有模型好。
第三,先做文生圖,也是因為文生視頻和文生 3D 在技術和市場上仍然處于早期,需要一定的時間去探索。
機器之心:你如何理解這三者的市場空間?
梅濤:文生圖的市場空間其實很大。參考 MidJourney 只有 11 個人的團隊,已經做到超過 1 個億美金的收入了。
在文生圖的商業化上,我們目前希望切入產品設計和營銷這兩個價值鏈中最重要也是最普遍的環節。在產品設計上,我們希望首先面向專業設計師群體,通過可控、可互動的圖片生成衣務,幫助他們更好地實現創意,提升生產力,讓設計師形成較好的使用和付費習慣,之後再不斷外延到 UGC 用戶。
全球有 9000 萬設計師,中國有 2000 萬,設計師所面臨的痛點主要在于沒有足夠多的創意,以及驗證創意的成本太高。我們希望這個工具可以幫助設計師提升個人的競争力,可以幫助他們快速產生更多更好的創意,并加速生產流程。
而文生視頻的市場空間會比文生圖賽道更大,它可能會颠覆目前短視頻的玩法。參考目前用戶對短視頻内容的大量消費情況,當 PGC 驗證過後,文生視頻工具在 UGC 領網域的需求會是颠覆性的爆發。同時,文生視頻目前還沒有一家可以做到像素級絲滑(沒有任何抖動)的生成,可提升空間很大,當然技術壁壘也是非常的高。
文生 3D 在遊戲和 AR/VR 領網域的想象空間則非常大。我們在做遊戲領網域的客戶訪談時發現,客戶最大的需求在 3D 内容創建。我們團隊本身在 3D 方向擁有很多學術積累,雖然目前整體技術還很不成熟,但是值得探索。
機器之心:那麼文生圖将會是你們第一個面世的產品。從去年到現在,許多大廠和小廠都在文生圖賽道上做了嘗試。此刻切入這個市場,你們的優勢是什麼?
梅濤:目前文生圖賽道确實很卷,市場競争非常激烈。我們看到雖然很多公司做得還不錯,但仍然有人臉、手指、景深、可控性等很多技術問題沒有解決。
從技術上講,市場上的眾多文生圖產品,相當于一桌滿漢全席,各家有不同的搭配方法。我們清晰地知道這些是怎麼搭配的,因此我們知道怎麼去更好地去把這一桌菜做搭配。
從結果上看,我們模型迭代的速度很快,不到 6 個禮拜就從 0 到 1 研發并迭代了一個相對穩定的模型,其他團隊可能需要幾倍的時間。别人可能需要訓練十次才能拿到一個比較滿意的結果,而我們只需要兩三次。
市場方面,我們是面向全球市場。而且文生圖只是我們基于底層視覺模型來打樣的一個產品,對于其他的文生圖公司,我們本質上也并非競争關系,未來他們也能夠選擇調用我們的基礎模型來做微調(finetuning)訓練或直接使用我們的 API 接口服務。
ChatGPT 的出現加速了我的創業進程
機器之心:你此前的職業路徑都在大廠。創業這件事,在你的預期之中嗎?
梅濤:在。我之前的職業生涯實際上是在有意識的為創業做準備。在微軟期間,我主要在技術方向上磨練,之後去到京東,所做的工作離產品和市場更近了,幫我補充了技術之外的視角,是一段非常好的經歷。
但沒有預料到的是 ChatGPT 的爆火,為生成式 AI 帶來了爆炸式的熱度,這加速了我的創業計劃。但即使沒有這件事,我仍然會創業,早晚的事。創業這件事,在我看來,一輩子注定要做一次;如果不做,我會後悔。
另外,我創業的一個重大原因是大廠的節奏相對比較慢,而我做事特别快,我認為創業公司在節奏上會快很多。因為在這個賽道上我們已經比國外落後了 9 個月甚至 1 年,所以我認為應該用更快的加速度去追趕、甚至超越它,而不是說按部就班地去做。
我現在經常拿着背包,時刻準備着出差。有時我不知道明天會在哪個城市,感覺創業的生活有點像我們現在所做的 Decoding,每天都在解鎖未知的事情,很辛苦但也很充實!
機器之心:你認為這次的人工智能創業潮與以往的有什麼區别?
梅濤:這次人工智能創業的門檻非常之高。在模型層,需要你有高密度的算法科學家,其次還需要有足夠的算力,足夠的數據。以往的判别式 AI 公司(如人臉識别),雖然有頭部公司,但是小公司跟随起來不是特别費勁,但是現在完全不同。
機器之心:公開資料顯示,你已經完成了來自阿爾法公社、中喝大種子一号基金參與的種子輪融資,近期還将完成第二輪融資。目前公司在人才和資金方面的進展如何?
梅濤:公司已經運營了接近三個月的時間,目前我們的辦公場所,還有早期的人才和算力已經基本到位。
資金方面,我們正在采用小步快跑的模式快速迭代,種子輪只是起步資金,今年年底前預計會分兩輪完成數千萬美金額度的天使輪融資。下一輪資金将用來擴張團隊、購買算力資源以及商業化探索。目前團隊共有十一人,預期在年底前會擴張到二十至三十人左右。我希望構建一個小規模的精幹團隊。
機器之心:聽下來年底對你們來說是一個比較重要的節點。那接下來的半年,你們會着重解決哪些問題?
梅濤:第一個是模型方面,我能否将它做到百億級,模型效果在參加評測時能否對标甚至略超過目前的模型;其次,在文生圖產品上,我們的效果能不能超過目前世界上最好的公司;第三,我們内心完整的商業模式能否得到初步驗證,比如我們能否服務好行業中的小 B 客戶以及我們的用戶到底喜不喜歡我們的種子產品,這對我來說是很重要的指标。我未來的半年主要就是把這三件事做好。
© THE END
轉載請聯系本公眾号獲得授權
投稿或尋求報道:[email protected]