今天小編分享的互聯網經驗:對話 HiDream.ai 梅濤:做一家對标 MJ 和 SD 的公司,比扎堆做 LLM 機會更大,歡迎閱讀。
梅濤 2002 年底就進入了微軟,博士 5 年,他有 3 年半都在微軟度過。2006 年他拿到博士畢業證後,繼續回到微軟工作,直到 12 年後才離開微軟亞洲研究院。
他說:" 在微軟加起來總共 15 年,不管是技術的價值觀還是公司的文化都是在這邊形成的,第一份工作對一個人的影響很重要。"
而在京東 5 年的經歷,他确實學到了很多經驗,彌補了自己從技術到產業化的不足。
春節前走的時候,梅濤很坦然的對劉強東說:" 我待了 5 年,想出去做點事情。" 劉強東也很贊同。在最近一次梅濤給劉強東回信中,他講述了最近公司的一些進展,劉強東也對梅濤送上了由衷的恭喜。
在創業初期,梅濤獲得最大幫助就是科大的校友,科大人可以說是聚是一團火,散是滿天星。
梅濤公司第一輪投資有 15 個人是科大校友,他們組成了一個合夥人 LLP 來支持他。
甚至,梅濤公司會議室的桌子椅子,也是上一個科大人公司搬過來直接捐贈給他們的。
梅濤雖然為人低調,但朋友很多,這些校友無一不在幫助梅濤,包括出謀劃策去融錢、發展公司、搞業務、搞客戶。
" 科大人幫科大人的故事就是這麼來的,科大人才密度很高,所以我們科大人幫助科大人很有成效。我非常感激母校中國科技大學。" 梅濤有些動容的說。
" 我自己有個夢想,就是在中國做一家具有矽谷創新精神的公司。"
如今大模型的大潮到了,梅濤也開啟了他的創業之路,成立了 HiDream.ai 。梅濤告訴 AI 科技評論,HiDream.ai 要在基礎模型上超越 Stable Diffusion 最新版本,而在產品上則要趕超 Midjourney。
這是國内第一家喊出來對标 Stable Diffusion 和 Midjourney 而且真正希望做到的公司。
在 AIGC 領網域,做影像生成的基礎模型中,開源的 Stable Diffusion 無疑是最好的,因為有很多人來做貢獻;而在產品上,由于 Midjourney 最早通過社區用戶積累了獨有的用戶反饋,數據的輪子已經轉起來了,同時配合高質量數據集,形成了自己的競争壁壘。
梅濤告訴 AI 科技評論,要對标就要對标最好的,這個領網域要卷就要跟國外卷,直接做基礎模型底層的正面競争。目前 HiDream.ai 已經在開發一個生成式視覺多模态基礎模型,該模型不僅能夠支持文生圖,還能支持文生視頻、圖生視頻以及文生 3D 等功能。
梅濤認為,必須自己做多模态基礎模型,因為沒有模型就沒有核心壁壘。
1
對标 MJ 和 SD,不在國内卷
AI 科技評論:聽說你前段時間在找算力?
梅濤:前段時間是在找算力,那個時候确實比較辛苦一些,現在算力問題解決了,已經在用了。
AI 科技評論:你現在創業在哪個階段了?
梅濤:我是春節前兩天離開京東,三月初注冊了智象未來科技有限公司。
我們現在做的就是 AIGC(人工智能生成内容),主要是生成式多模态基礎模型以及其應用,主要應用會面向設計師來使用,例如遊戲設計師、營銷設計師、繪畫設計師等。
在 AIGC 的路上,我們可以說是一路狂奔。三月注冊公司,四月中旬第一輪融資就結束了,五月初基本的算力資源和核心人員都已經到位,六月底數據和模型的規模都已經達到了 60 億,七八月份我們就會發布第一版產品。我們的辦公室也從亞運村的一個百平米的公寓搬到了現在的中關村。
AI 科技評論:目前很多創業者都在往應用方面走,為什麼要堅持做一個基礎模型?
梅濤:因為如果沒有基礎模型,就肯定沒有自己的核心壁壘;另外不自己做,就要用開源的模型或者調用别人的模型,就會相當依賴别人的技術。
我們堅持做一個底層的多模态基礎模型,并不一定要做很大,因為視覺領網域生成式基礎模型參數能做到 100 億就已經很大了,目前最大也就是十幾億或者二、三十億。
從五月份到現在八個禮拜,我們已經做到了 60 億規模,目前已經上線了一款應用了,不過還在内測階段,想先在 B 端客戶推廣使用。
AI 科技評論:在算法方面,你們目前能達到什麼程度?
梅濤:ChatGPT 這個模型它的天花板很高,今天它能做到 1750 億,未來它也能做到 1 萬億。因為它的模型能力很強,它能夠記住很多知識。當前的視覺模型本身天花板比較低,現在我們給他喂很多的數據,它也只能做到大概十幾個億的參數規模。
我們現在做的第一個事情是,給模型打很強的補丁,增強它的記憶能力,讓它能夠記住更多的信息。另外,我們會在算法層面做很多技術的改進,如 encoder、decoder 等。
如果今天讓我去做大語言模型,我覺得沒有機會,因為通用的大語言模型确實是大公司做更有優勢。而視覺領網域的多模态基礎模型,以及基于此的很多應用對創業公司來說還是有很多機會的。
AI 科技評論:國内在圖片或者視頻領網域大家其實拉不開差距,你為什麼覺得有機會?
梅濤:所以我們不跟國内比,直接對标國外 Midjourney 和 Stable Diffusion,目前我們已經把 Stable Diffusion 的最新版本甩在後面了,現在正在追趕 Midjourney 的最新版。
雖然我們起跑的時候晚了一點,但是我們跑得很快。因為我們有一個很強的團隊,剛好是十一個人,可以組成一支足球隊,團隊都是類似于像華為天才少年這樣級别的選手。而我自己本人在這個領網域做了十幾年,我們勤奮、腦子也不笨,我相信我們公司以後會跑的越來越快、走的越來越穩的。
AI 科技評論:國内幾乎沒有這樣說自己直接對标這兩家公司,為什麼敢把 Midjourney 和 Stable Diffusion 作為對标對象?
梅濤:我們對标的是 Stable Diffusion 這種基礎模型,以及 Midjourney 這樣的應用。我們是國内唯一一家願意對标 Midjourney 這種現象級產品的公司,而這個空間還是挺大的。
第一,Midjourney 是一個小公司,但是它的數據其實很不錯,數據的輪子已經轉起來了,行業壁壘已經形成;
第二,Midjourney 做文生圖,但這個領網域也只是滿足專業設計師這個小眾群體 ,只是作為找尋靈感的工具,還沒有正式進入設計師真正的工作流程;
我們的優勢在于不僅做文生圖,還做文生視頻、圖生視頻、文生 3D 等,多種模态可以随意切換。現在公司的能力還沒有被釋放出來,但是過去兩個月的實踐證明,在這麼短的時間我們就快要追趕上 Midjourney 了。
我們要對标最好的,而不是關在國内的市場做淺層技術的内卷,一定要走到全球,做 Global Market Player。
AI 科技評論:你們的產品打算什麼時候推出?
梅濤:七八月份,我們也在内測,想先在 B 端客戶内部的設計師使用,然後再投到社區裡傳播。因為生成式 AI 的產品一定是體驗為主,就是用戶覺得好不好。舉例說你跟 ChatGPT 對話,如果把 ChatGPT 比喻成一個 " 高中生 ",再來一個低版本的 GPT 3. 0,那你面對的就像一個 " 小學生 ",你肯定就不太願意跟他對話了。
所以我們一定要把產品打磨到很不錯的程度才會去公開發布。基本到七八月份就可以達到 Midjourney V4 版本的水平了,趕上它 V5 版本甚至未來的 V6 版本估計得 Q4 左右。
AI 科技評論:您現在做產品會不會結合 Stable Diffusion 和 Midjourney 的一些特點?
梅濤:Stable Diffusion 和 Midjourney 就是其中兩道菜,并不是滿漢全席。而我們知道什麼菜用什麼組合,用什麼佐料。
Stable Diffusion 本來是一個開源的模型,它有文字開源、圖片開源,并不是專一在某一個行業裡面把產品功能或應用做得最好;Midjourney 它本身沒有特别突出的底層模型能力,他們把數據玩的挺好,模型也訓練的不錯,但他們工程師中做基礎算法研究的人很少,基礎模型的創新性長期看競争力有限。
AI 科技評論:做大模型,數據是一個問題,現在您這邊怎麼解決的?
梅濤:因為我們啟動的比 Midjourney 要晚一點,Midjourney 他現在比較好,他的模型和數據已經滾動起來了。我們實際上現在已經累積了 60 多億的數據。
我們做多模态基礎模型的時候,實際上是需要圖片和文本的配對的。它不像語言模型可以直接從文本數據中拿一個詞出來,就可以做自監督學習。我們實際上是需要文本和圖片的配對,這種配對的話要求很精準的,而且配對關系很難找。
目前基本上所有的開源、閉源模型都用到了 50 億規模的數據集,都是基于開源數據做的。而我們還有 20 多億的自有數據,所以在數據上我們不輸他們,只不過他們的輪子已經轉起來了,用戶反饋也有了。
我們會在垂直領網域上線,很快我們也會積累一些原始數據。我認為真正影響大模型的只有數據和算法,因為算力大家都會有。
2
AI 創業門檻提高, 主要看誰的效果好
AI 科技評論:Midjourney 有很多外包人員,你怎麼看待他們這條路子?
梅濤:确實 Midjourney 有 60 多個外包或顧問,現在這個階段的創業就是這樣,它跟 AI 1.0 創業時代的四小龍不一樣,那個模式商業 BD 能力會很重要,因為他做 ToB ToG,搞定客戶的能力是關鍵。
我們不準備走他們那種創業故事的路子。我們這波創業的,技術門檻會很高,誰做得好用誰的。比如以前人臉識别一個單子下來十幾個供應商都在那裡投标,這裡面看的不是模型,而是是哪個公司的綜合解決方案的能力,包括技術、市場和服務。現在的模式下,更多的是看產品體驗、生成的内容質量等。
AI 科技評論:包括 AI 四小龍在内的一些人工智能公司也開始做大模型,您怎麼看?
梅濤:其實現在一些公司做的普遍都還是判别式的大模型,而不是生成式的大模型,兩種模型不太一樣,兩個一起做可能會起到一些互補作用。
例人臉識别、目标檢測就是判别式的模型。我們現在做的是純生成式的基礎模型,這個門檻很高,不是随便一個使用過 Stable Diffusion 開源模型的團隊就可以創業了。首先得有高密度的人才,并且懂 Transformer 架構,所以現在真正想做、能做基礎大模型的公司相對還是比較少的。
AI 科技評論:判别式和生成式模型的區别在哪裡?
梅濤:判别模型和生成模型底層的編碼器可能是一樣的,但是上面的任務層是完全不一樣的。比方判别式模型追求的是準确率;生成式模型則追求的是相關性、創意、真實感,對于準确率容錯率高,是一個有創意的領網域。
AI 科技評論:以前有做過類似生成模型的嘗試嗎?
梅濤:以前這種深層次的東西,我們想做,但是沒想到确實能做出來。我之前在微軟時候就做過圖生文、相當于看圖說話。後來 2017 年就開始做文字生成視頻,文字生成圖片。但那個時候技術不成熟,真實感、質量很差,比如畫一只鳥,當時我們很難控制它,覺得技術離產業化比較遠,所以沒有繼續進行下去。
如今真正的大模型出來了,機會真的來了,以前只能做 ToB,現在也可以做 ToC。我們公司之前也做過一個案例,就是利用生成模型,進行工業瑕疵品的檢測。
AI 科技評論:您認為工業質檢是生成式 AI 應用場景的一個突破口嗎?
梅濤:我認為質檢不是生成式 AI 的主要市場。在創業之前我也調研過,這個行業天花板不是特别高,而且市場相對來說比較細分,包括其中幾家上市公司,面向 ToB 和 ToG 行業,毛利率一直不是很好。
此外,這個行業是高度的定制化,很難突破 " 通用性 " 和 " 标準化 " 這兩個難題。
我們產品的場景更加聚焦于視覺内容生成,比如遊戲和電商領網域的設計和營銷環節。
3
把技術產品化是 " 使命感 " 使然
AI 科技評論:對于未來你覺得能做到什麼樣的程度?
梅濤:模型的訓練我們會有很多條技術路徑,我們會放出很多匹 " 馬 " 出去,但到底哪匹馬能走到終點,我現在也不太好确定,也許這一匹馬折了,再放一匹馬出去。比如圖片或者視頻。
AI 科技評論:對于開源您怎麼看?
梅濤:現在很多人開源了,但是我覺得真正應該思考的是怎麼樣去擁抱開源?怎麼去跟開源共存?
因為所有人都能夠參與的開源生态,其廣度絕對是超過任何一個大公司的,因為每個人都可以在上面貢獻,迭代速度特别快。所以說不管是創業公司也好還是大公司也好,都得想辦法跟開源社區能夠一起成長。
我們公司打算把一些偏研究的算法和與核心產品有差異化的開源一些出來。其實之前在微軟和京東就已經開源了很多框架,當時點贊率也挺高的。
AI 科技評論:國内外對待開源有何不同?
梅濤:國内做開源的公司基本很少,而且是很難的一件事情。
首先,國内公司的開源文化和氛圍還有待建設。
其次,開源有開源的協定,如果用了開源的東西,就要貢獻你的開源模型;作為開源社區的受益者,你也要遵守這些規則。
我的價值觀就是:只要用了開源的東西,就要遵從開源社區的遊戲規則,也要反哺社區,否則開源社區沒有未來,也無法形成正循環。我們國内的公司包括個人都應該思考怎麼跟開源社區共存。
AI 科技評論:關于融資,現在進展到什麼情況了?
梅濤:現在正在做第二輪天使輪的融資,預計這一輪很快就會結束。投資的具體情況會等到真正交割的時候透露,我不喜歡搞煙霧彈。
AI 科技評論:目前人員擴張計劃如何?
梅濤:短期内會保持在 25-30 個核心人員左右。從現在開始到明年年底,初步估計核心員工也不會超過 50 個人。我們不是 ToB 的公司,做 ToC 不需要那麼多人。
現在主要缺的是產品經理、工程師、運營人員等。尤其是產品經理,一定得是一個很多元化的選手,產品方向不對會把大部隊帶偏。
AI 科技評論:對于招聘人員有什麼标準?
其實看一個人的标準主要看是不是有夢想,還有是否願意來創業公司發展,年輕有想法,動手能力也得強,然後我們一起投身進來幹事情。
AI科技評論:您平時比較低調、嚴謹,您覺得主要受誰影響?
梅濤:我是在微軟待了 12 年,在京東待了 5 年,其實受到的影響都是很大的,開復、亞勤、宏江、Harry、世鵬、芮勇等都是我以前的同事,從微軟出來的人,價值觀、使命感還是挺強的。包括最近我和同時也在創業的周明老師聊天,我們這一波人對于把技術產品化從而創造社會價值,有一種使命感。而京東幫我跨過了從技術到產品再到商業化這兩個 Gap。
我個人的特點是喜歡厚積薄發、長期主義。我覺得一個人不是說跑得多快,也不是說他跑步的時候有人給他敲鑼打鼓了他就可以跑的很遠,我覺得最後要看你能不能堅持有韌性,這樣才能跑得遠一點。
而我看到,國外技術迭代太快了;如果長期這樣下去,國内就要被甩開了。所以我必須自己出來做這個事情。(雷峰網雷峰網)
本文作者:李揚霞,微信 Dec9102。長期聚焦網絡安全領網域,同時關注 AIGC、大模型等内容,對以上領網域感興趣的讀者歡迎添加作者微信。