今天小編分享的互聯網經驗:紅杉等一線資本雲集,Hugging Face是怎麼成為AI創造力中心的?,歡迎閲讀。
前言:這是一檔由【創業邦】與聚焦創業投資市場的品牌咨詢公司【賦雅 FOYA】聯合出品,每周為大家帶來有趣、有料的海外獨角獸商業故事。
作者丨适道
編輯丨海腰
圖源丨 Hugging Face 官方
Hugging Face 是一家估值 20 億美元的 AI 獨角獸,有 24 個投資人,包括 Lux Capital,紅杉資本等。
在大模型領網域,我們已經看多了巨額融資,例如 OpenAI 獲得微軟的百億美元投資,以及最近 InflectionAI 獲得微軟和英偉達的 13 億美元融資。
但是 Hugging Face 這家估值 " 僅 20 億美元 " 的公司,卻是目前 AI 領網域的創造力中心之一。
因為它是一個 " 構建未來的 AI 開源社區 ",被稱為 "AI 領網域的 Github ",不僅有人數眾多的開發者和產品經理在它的社區裏研究和發布自己訓練或微調的 AI 模型,客户也超過 5000 個(其中 3000 個是付費客户)。
Hugging Face 的一個重要組成部分是名為 Transformers 的自然語言處理庫,其 Transformers 庫在 GitHub 上擁有 62000 顆星和 14000 個分叉。這意味着開發人員和數據科學社區正在積極使用和改進 Hugging Face 的技術。
根據 Hugging Face 的説法,Transformers 提供了 API,可以輕松下載和訓練最先進的預訓練模型。使用預訓練模型可以降低計算成本、減少碳足迹,并節省大量訓練模型的時間。
Hugging Face 提供了一個免費增值模型,客户可以使用其推理 API,獲得基礎的 AI 推理能力以及免費的社區支持;其付費服務允許客户輕松訓練模型,提高推理 API 的性能等。
它的其他產品和服務還包括 Datasets(應用于多模态模型的數據集),Hub(模型和數據集的托管服務), Tokenizers(高速分詞器,幫助把數據轉化成模型能理解的形式)等。
這家具有巨大潛力的 AI 開源獨角獸,由一位出身法國小鎮,在都柏林大學上學的極客 Clem Delangue 創立。正是他在大學時期就具備的極客精神和開源精神,讓他在機器學習的道路上探索,并最終形成了 Hugging Face 獨特的社區文化和企業文化。
這位非典型的創業者對于 AI 本身有深刻理解,也對創業,開源社區以及融資有自己的意見。
本文結合 Hugging Face 的投資人紅杉資本對它的深度報道以及創投圈著名播客 20VC 的主理人 Harry Stebbings 對 Clem Delangue 的深度訪談,梳理出 Hugging Face 從 0 到 1 的進化道路,以及 Clem Delangue 的創業故事。
編者注:20VC 是創投圈著名的播客,主理人 Harry Stebbings 與美國最熱門的創投大佬都有過對話。(比如 Benchmark 的 Bill Gurley,ARK Invest 的 Cathie Wood,Accel 創始人 Arthur Patterson/Jim Swartz,以及紅杉資本的 Doug Leone。
Hugging Face 的開源精神
起源于創始人 23 歲的大學時代
當 Clem Delangue 還是都柏林大學的學生時,就打造了一個叫 UniShared 的教育平台,它旨在解決學習資源全球性分配不公問題,向全球每個人提供大學教育的好處。這使 23 歲的 Clem Delangue 登上了 TEDx 的講台。
在 Delangue 的少年時代,他的世界并沒有超出法國北部小鎮 La Bass é e 的邊界。在 Delangue 的家鄉,年輕的他探索機會有限,然而互聯網的到來打破了這一切。" 當我得到自己的第一台電腦時,它就像一扇窗户,讓我看到了更大的世界,那種感覺真是令人震驚。" 他回憶道。
Delangue 的 UniShared 并沒有改變世界,但這為他種下了開源和分享的精神種子,也讓 Google 向他遞上了橄榄枝。不過 Delangue 拒絕了這個機會,因為他覺得在小型、靈活的環境中更加舒适。
他為一家名叫 Moodstocks 的巴黎計算機視覺創業公司工作。Moodstocks 開發一款應用,當用户掃描物品就能立即查看相關評論和電商門户。這是 Delangue 與機器學習的初次接觸,他感到十分震撼。
在巴黎的一次會議上,Delangue 偶遇了著名的 Apple 市場營銷專家 Guy Kawasaki(他打造了當年十分著名的麥金塔電腦系列廣告),Delangue 走近正在籤名的 Kawasaki,并向他介紹自己和他的應用。
Kawasaki 對這項技術表示懷疑,尤其是對它随機識别野生物種的能力。因為在當時,機器學習仍需依靠工程師指定相對短暫、固定的定義列表和規則才能獲得準确的結果。" 他説的大意是,你無法創建規則來識别世界上所有的物體。"Delangue 回憶道。
于是,Delangue 給 Kawasaki 做了一個演示,他将智能手機對準 Kawasaki 的水瓶。令 Kawasaki 驚訝的是,應用正确地識别了品牌并提取了社交媒體上的評論。
對于 Delangue,那一刻真正的激動人心的不僅僅是他的應用程式的工作效果,更重要的是他看到了機器學習以新方式連接人與人的潛力。
" 兩個從未見過面的人——一位法國極客工程師和這位美國硅谷的家夥——他們因為機器學習發現他們其實喜歡同一個飲料品牌。" Delangue 説。毫無疑問,機器學習有巨大的潛力——但是當與用户社區一同開發時,它的潛力更大。
在離開 Moodstocks 之後,Delangue 在一些初創公司中負責產品和市場營銷工作。
2016 年,他渴望再次為自己做點什麼。在紐約,他與 Julien Chaumond(一位在法國經濟部門工作的計算機工程師)聯系上了。他認識 Julien 多年,Julien 是一位精英數學家,也是他的朋友,兩人長久以來都對彼此有着專業上的認可與尊重。
兩人決定一起參加斯坦福大學的在線工程課程,并如他們一貫的方式,聚集了三十多人的學習小組,Thomas Wolf(一位受過科學訓練的專利律師)就是其中之一。在課程結束時,Julien 和 Delangue 邀請 Thomas 與他們一起工作。
他們共同設定的目标是解決機器學習領網域中一個最為棘手的問題:利用 NLP 技術,構建一個開放領網域的、會話式的 AI 聊天機器人。一個可以和你談論任何事情的機器人。Siri 從 2011 年開始出現;Alexa 從 2014 年開始。" 它們極其無聊,只會做生產力相關的事情。我們對建立一個有趣的會話式 AI 感到興奮。"Delangue 説。
在 2023 年,打造一個人性化的聊天機器人聽起來像是一個顯而易見的目标。但在 2016 年,依賴深度神經網絡進行學習的 NLP 領網域(與過去基于統計、規則的 NLP 相比)還處于萌芽階段,他們的目标幾乎接近科幻。聊天機器人需要整合多種學習模型,進行信息提取,理解情感,并生成答案。
這些模型需要對大量的數據進行訓練,而管理這些數據(包括如何收集足夠的數據,标記它,托管它)是他們面臨的首個重大挑戰。正是對不可能的挑戰,使得 Hugging Face 走上了當前的軌道,成為全球最大的開源 AI 社區。
從一開始,Hugging Face 團隊就展現出屬于開源社區特有的慷慨和民主精神,Delangue 和他的聯合創始人賦予員工權力,擁有他們自己的產品,為他們的聊天機器人創建和發布功能。
最終,這個機器人活躍在社交網絡、移動 APP 上,用户們發送了超過十億條信息。随着時間的推移,它采用了開源的策略。
發布自定義版本 BERT 模型的嘗試
讓 Hugging Face 轉型開源社區
沒有什麼時刻能比 Hugging Face 發布其自定義版本的機器學習模型 BERT(一種基于 Transfomer 的變種模型)更好地體現這種精神了。
當時,機器學習的進步常常通過冗雜、理論性的學術文章傳達。例如,當 Google 在 2018 年 10 月首次發布 BERT 時,它對大多數用户來説過于復雜,而且 BERT 只在 Google 的 TensorFlow 平台上可用。
Hugging Face 團隊希望 BERT 能被更多開發者和用户使用。一周内,他們創建了一個可以使用 PyTorch 機器學習框架的 BERT 工作版本。然後,他們将其轉化為開源,并在 Github 上免費贈送給任何想要使用或進一步微調和修改它的人。
" 那是個分水嶺時刻 ", Hugging Face 在紅杉資本的主管投資人 Pat Grady 説," 人們都在説,‘我的天,我可以使用一個最新的語言模型。’以前這是不可能的。這讓 Hugging Face 在當時規模還很小的自然語言處理人群中成為了英雄。" 當 Grady 後來問 Delangue 是什麼激發他們把 BERT 發布給全世界的,他被他的答案的直接性所打動。" 我們只是覺得,這是許多人會喜歡使用的東西 ",Delangue 回答。
Delangue 也在與 20VC 主管人 Harry 訪談時聊到了開源對 AI 的重要性:"AI 的大部分進步都是基于開放科學和開源的,因為 AI 的開放,所有人都能用最新算法搭建應用,這形成了非常有趣的正反饋和改進,專家實驗的循環使我們能夠非常快速的推進 AI 的發展。沒有開放科學,沒有開源,沒有 Google 分享他們的《Attention Is All You Need》論文,分享他們的 Bert 論文,也許 AI 發展的進度會比現在慢很多年。
機器學習社區對自定義版本 BERT 模型的反應證實了 Delangue 多年前在都柏林大學時的感覺——分享知識對每個人都有益。那時,Hugging Face 的使命改變了。Delangue 和他的聯合創始人決定開始分享他們在構建聊天機器人過程中學到的關于機器學習的所有東西。漸漸地,他們開始成為工程師、研究人員和機器學習領網域愛好者的首選資源。
在構建他們的 BERT 适配版的過程中,Delangue 和他的團隊成為 Transformer 模型的專家。所有的 AI 模型都接受大量數據的訓練,Transformer 能從未标記的數據中產生優秀的結果。這種無監督學習形式為數據管理員節省了大量的時間,并使更多的數據可用于訓練機器學習系統。
Hugging Face 團隊看到了 Transformer 的潛力,并将 Hugging Face 建立為開發它們的首選開源中心。機器學習社區也注意到了這一點——編程者和研究者開始湧向 Hugging Face,他們帶來新的洞察和專業知識,使大量的機器學習項目和工具互相影響。
如今,任何想要使用 Transformer 的人都可以在 Hugging Face 訪問約 20 萬種不同的公共模型。
Delangue 意識到,鑑于這些工具的巨大潛力,理解它們需要一個社區:圍繞共同目标、需求和價值觀組織起來的人們。
随着他們轉向開源,Hugging Face 正開始成為 Delangue 希望能夠建立的社區。
紅杉資本合夥人 Sonya Huang 説:" 真正善于創建社區的人實際上非常少。Delangue 理解用户——他就是用户——并且他對草根社區有直覺。他以極其真實的方式培育它。"
Huang 還被 Delangue 展現出來的開源精神所打動。她指出,Delangue 沒有雇傭專職社區經理與 Hugging Face 的用户接觸,而是自己做這件事,經常在 Twitter 上發布 bug 修復信息,與超過 1000 名 AI 研究人員和追求生物技術、影像和語言處理領網域 AI 突破的 10000 多家公司一起解決功能問題。
至今,Hugging Face 不僅沒有單一的社區經理,還期望其 160 名員工每個人都積極參與這個在線社區。" 我們覺得如果我們開始擁有社區經理,那就是将所有成員都應負的責任外包出去。" Delangue 説。為此,每個員工都可以訪問公司的官方 Twitter 和 LinkedIn 賬户。如果 AI 的未來要依賴眾包,Delangue 正在确保 Hugging Face 将自己定位為眾人的來源。
今天, Hugging Face 社區的龐大規模推動了其戰略地位的慣性,使它成為機器學習的進化策源地,例如,視覺大模型 Stable Diffusion 選擇将其模型、數據集和演示發布到 Hugging Face 時,它激發了用户引領的活動,修改和改進模型(在他們的演示空間裏產生了如 " 一個橡皮鴨在講台上發表演講 " 和 " 在被輻射的皮卡丘 " 等傑作)。
2023 年 3 月,Delangue 在推特上宣布他将在即将到來的舊金山之行中與 Hugging Face 的用户舉行一個臨時聚會。在幾小時内,超過 400 人使用他在推特上分享的密碼 ossftw(開源軟體永遠勝利)進行了注冊。
到了正式舉行時,它已經赢得了 "AI 的伍德斯托克 " 的稱号。大約 5000 人(和三頭羊駝)參加了活動。從活動的視頻中,你可以看到一種類似于狂歡派對與機器人競賽交叉的氛圍。AI 公司擁擠在攤位中。其中一家,在幾天前的黑客馬拉松中組建的 AI 教育公司,在此活動上進行了公開發布。
Delangue 和一個身穿亮黃色緊身衣,身體是一個巨大的 Hugging Face 表情符号的吉祥物跳舞。他向推動 AI 前進的每一個人(所以,基本上是全場的人)表示感謝。" 這個活動是對開源力量的慶祝,"Delangue 告訴他們。" 記住,在 AI 領網域,我們所處的位置全都歸功于開放科學和開源。"
AI 原生創業公司将颠覆舊有的公司
在短時間内,人工智能已經疾速發展。大型語言模型已經從幫助 Gmail 為用户提供建議的簡短回復的後台技術,演變成了一些更奇妙(在某些情況下,也更可怕)的東西。文生圖工具和 ChatGPT 在短時間内擴大了我們對可能性的想象,而 ChatGPT 成為了歷史上增長最快的應用程式。
數以百萬計的開發者和產品經理湧入 AI 領網域,擠滿了這個長期以來只有博士和工程師出入的空間。我們現在都在使用 AI,而這群終端用户即将在整個空間上施加更大的影響。
在 Delangue 的觀點中,任何對 AI 未來有所投資的人都應該成為 Hugging Face 社區的一部分。" 如果用户不理解這項技術是如何構建的," 他説," 它會帶來很多風險,很多誤解。"
Delangue 認為,對尚未實現的通用人工智能的崛起的擔憂是錯位的。
他同意 Andrej Karpathy,(前特斯拉 AI 總監,現在是 OpenAI 的人工智能專家)于 2017 年提出的觀點—— AI 是 Software 2.0。在這個觀點中,AI 是現代世界運作方式的重大進步,它也已經開始塑造經濟。但是,它不是萬能的。
"AI 是構建所有技術的新範式,但它不是新的人類形式,它不是超級感知生物。但它确實擁有龐大的潛力,它會比互聯網大,比傳統軟體大。它将為技術創造新的能力,與大多數技術公司編寫軟體一樣,大多數技術公司将編寫 AI。" Delangue 説。
Delangue 從他的經驗談通用大模型與開源小模型的适用性問題 :" 有兩種 AI 世界觀,一種是一個通用的大模型解決所有問題,另一種是許多開源小模型解決不同的問題。選擇哪一種路線,取決于你的使用情況,限制情況和你想做什麼。
如果你是 Facebook,那一個巨大的模型能為你的用户做任何你想幫他們做的事情;如果你是一個消費品公司,那麼你需要針對你的實際場景選擇和優化 AI 模型,這些模型要更快,更便宜,更高效。所以,如何選擇,取決于你如何定位你自己。"
對于企業是直接使用大公司模型的 API 還是自己訓練和微調開源模型,Delangue 的觀點是:" 直接使用 OpenAI 的 API 在開始階段更快,更容易,但是從長期來看,創業者面臨的挑戰更大,因為你沒有真正建立核心競争力。
如果一個使用 AI 的創業公司沒有能力優化模型,那麼它面臨的風險是在與競争對手競争時,無法使自己脱穎而出。如果創業公司想讓自己具有差異化競争能力,就必須針對它的用户做一些真正有價值的事情,并能持續進行優化。就像傳統軟體公司需要編寫代碼來構建技術產品一樣,AI 公司也要在機器學習範式中訓練或定制自己的模型。"
Delangue 進一步指出,這是新公司颠覆舊有企業的巨大機會:因為舊企業會選擇容易的解決方案,而其他更需要 AI 的公司會選擇更具颠覆性的方式,這就是具有模型訓練能力的 AI 原生創業公司的機會。它們自己訓練模型,自己微調模型,它們在同樣的任務上可以比只使用現成 API 的公司好得多,它們就有很大機會颠覆舊有的解決方案。
AI 發展太快
現有的盈利方式
可能 3-5 年後就不适用了
對于 Hugging Face 的商業模式,Delangue 介紹道:" 我們就是經典的免費 + 增值付費模式(一種經典的開源軟體商業模式,基礎版本免費,更高級的功能收費)。" 他還透露公司目前已經有包括 Bloomberg, Grammarly 在内的 3000 家付費客户。
對于公司目前的第一要務,Delangue 認為并不是盈利:" 我們的主要優先事項是作為一個具有網絡效應的平台,被更多人采納和使用, 這也是我們的 KPI。
" 在 AI 這樣的領網域,你期望公司願意為 AI 付費,所以如果 Hugging Face 繼續成為公司使用的第一 AI 平台,很明顯我們将能夠從中獲得大量的收入,并建立一個好的業務。"
" 對于盈利,我們必須把它看作是逐步解鎖一些學習的階段。從六位數的收入開始,公司成員從中學習,看看它是如何運作的,然後是七位數、八位數和九位數的收入。每一步你都在學習,特别是在 AI 領網域,因為底層技術的發展速度非常快,可能我們今天賺錢的方式在三年後或五年後就不适用了。"
非典型創始人:
投資人不該搶創業者的活
在與 20VC 的訪談中,Delangue 還介紹了自己的融資原則。
首先,在兩輪融資之間,他不會與任何外部投資者交談。因為建立公司已經足夠困難,必須百分之百的專注于這件事。
第二,當他融資時,通常會進行得非常快,一旦已經獲得足夠公司發展的資金,就不再與不熟悉的新投資人接觸。因為很多投資人并不真的對創業者正在建立的業務足夠了解或感興趣。尤其是像 Hugging Face 這樣在種子輪時做聊天機器人,之後又做 AI 開源社區的,這兩輪的投資人,是完全不同的。
第三,他在選定投資人後,會與這位投資人共度 3 天時間,深度地互相了解和盡調,并且搞清楚一些重要問題:我們的目标一致嗎?我們的期望相似嗎?我們能在之後保持一個良好的互相支持的關系麼?
對于風險投資人,Delangue 認為部分投資人遺忘了風險投資對于創業公司的幫助首先是财務幫助,而把大部分時間都花在了其他事情上,有時甚至表現得像 CEO,他認為這其實并不是他們的工作。
" 更糟糕的是,我感覺有時候創業者是為投資者而建立公司,而投資者表現得像創業者。有時這上會導致公司崩潰,因為不幸的是,與創業者相反,投資人會同時管理很多不同的被投公司,所以他們只能在每家公司上花費很短的時間。即使他們是世界上最聰明的人,由于時間的限制,他們對技術的理解有時可能過于簡單化,例如對公司和其他事物的理解。" 他這麼表述自己對于風險投資人的不同看法。
而對于自己最喜歡的投資人,Delangue 表示是 Richard Socher:他是 NLP 領網域最傑出和最有影響力的研究者之一,現在是 You.com 的創始人。Richard 和 Delangue 相識很早,在很多方面都幫助過 Delangue 和 Hugging Face,無論是科學,商業還是創業方面。
本文為創業邦原創,未經授權不得轉載,否則創業邦将保留向其追究法律責任的權利。如需轉載或有任何疑問,請聯系[email protected]。