今天小編分享的互聯網經驗:對話Hugging Face王鐵震和零一林旅強:中國開源如何更好地被“看見”,歡迎閲讀。
王兆洋 | 硅星人内容中心負責人
林旅強 | 零一萬物開源負責人、開源社聯合創始人
王鐵震 |HuggingFace 工程師
在硅星人首屆 AI 創造者大會中,我們邀請到了兩位在中國開源社區裏面非常活躍的貢獻者,零一萬物開源負責人、開源社聯合創始人林旅強,和 Hugging Face 工程師王鐵震,我們一起讨論了對中國開源工作者最重要的一些話題 ( 文章約 8500 字,閲讀時間約 16 分鍾)。
Hugging Face 在關注什麼
開源作為一種作為競争策略
" 寫博客 " 為何如此重要
分布式,語音,數據集……算力限制之下,開源依然有機會
以下為對話實錄整理。
Hugging Face 在關注什麼
王兆洋:大家下午好,我是硅星人的王兆洋,我們很榮幸邀請到零一萬物的林旅強和 Hugging Face 的王鐵震,一起探讨中國開源工作者最關心的議題。
開源與閉源一直是計算機技術發展中的歡喜冤家。在當前轟轟烈烈的 AI 開源事業裏,中國開發者的參與度極高。今天請來的兩位,也是中國開源社區最活躍的貢獻者。
我想直接切入主題,首先請教王鐵震。作為 Hugging Face 的工程師,你們見證了大模型時代開源的發展。Hugging Face 已成為這個領網域不可或缺的主陣地。能否請你從 Hugging Face 的視角,分享一下當前開源的整體情況?包括模型開源的程度、項目的分類構成,以及你們在審核開源項目時最關注什麼?另外,你們最近有什麼新的舉措和變化?
王鐵震:Hugging Face 相當于 AI 模型的 GitHub,用户可以在這裏查看和下載數據集以及模型。目前,大家普遍關注的是大型語言模型。我們很早就開始做,大約在 2017 年和 2018 年就開始研究生成式 AI。在 2019 年和 2020 年,我們的 Hub 上線了。我們的 Hub 上不僅有大型語言模型,而且下載量和點贊數最多的模型是 BERT。實際上小型語言模型(如 BERT)在業内得到了廣泛的應用,因為它們經過微調後效果顯著,且成本較低。
我們的平台上不僅有大型語言模型,還有各種計算機視覺(CV)模型、強化學習(RL)模型、多模态模型,以及用于生成視頻的模型。最近,機器人控制模型也變得火。有老師聊到,機器人控制也可以 Diffusion 模型來做,這種架構具有很強的泛化能力,更新一點的就是 Real Time 模型。
在我們看來,生成式 AI 的浪潮中還是有很多新奇有趣的領網域值得研究,也在蓬勃發展。雖然目前看來,許多領網域仍處于初期階段,但我們相信它們很快就能實現大規模應用。
王兆洋:我們最早關注 Hugging Face,是你們在開發自己的應用,後來因為一個開源模型大受歡迎,開始做 Transformer 架構相關的研究。我們内部就在讨論為什麼 " 抱抱臉 " 公司值得關注?因為開源社區本身具有玩兒的屬性。我們最早和一些開源社區的成員聊,他們喜歡 Hugging Face 平台,是因為可以在上面嘗試最新的基于 Transformer 架構衍生出來的模型。我們也私下也讨論過,包括您剛才自己總結,不只是大家以為的以 LLM 為主的高光模型,實際上各種模型,甚至是上一代的模型,在平台上的點贊數是最高的。這是否意味着 Hugging Face 從始至終都貫穿着這樣的理念:盡管平台本身是開源的,但作為平台的運營者,你們有自己的喜好和偏好,這些偏好影響了整個開源社區的發展方向?這種理念是否一直延續至今?以及,你們接下來将如何鼓勵可玩性和創新?
王鐵震:我覺得不算是我們影響開源社區,我們是被開源社區影響。開源社區一直秉承着興趣驅動的原則,大家去用開源已經有的,像積木一樣堆積出來可以解決自己問題的 " 城堡 "。它天然就滿足每個人多樣化的想法。它和真正產品有所區别。如果你去觀察一個開源項目,你會發現,整個過程讓我們更深入地了解技術,理解背後的哲學原理,能夠親自上手修改代碼,可以與更多人交流。它是這樣一個流動的社區。如果 Hugging Face 在 AI 領網域有何不同,我們希望在 AI 領網域,不會因為缺乏卡或強大的計算資源而阻礙大家做生成式 AI 的工作。我們鼓勵包括零一在内的很多做大語言模型公司開放他們的預訓練模型,這樣大家就可以在這些模型的基礎上,用很少的資源繼續進行他們在開源社區中一直想做的各種模改和創新。比如,使用零一的模型,加入一些韓語語料,解決特定問題,利用開源社區的資源,站在前人的肩膀上創造更多有趣的成果,推動整個行業的發展。這是開源社區一直以來的精神。
王兆洋:一開始有一點遊樂場的屬性,但現在維持下來,因為它整個帶來了生產力實際上的改進。大家已經開始貢獻真正的價值出來了。
開源作為一種作為競争策略
接下來想問林旅強一個問題。你有兩個身份,一個是零一整個生态的負責人,同時你也是開源社的聯合創始人。開源社我自己形容它,有點像中國開源發展過程中其中之一的黃埔軍校一樣角色的存在。零一又不純粹只做開源的公司,你們又有一些開源的模型,又有閉源的,甚至直接是 To B 服務,靠它收費的模型,你們怎麼判斷哪些開源,哪些閉源?以及你在這個行業裏一直到現在,你整個觀察可以分享一下。
林旅強:我是去年 11 月份加入到零一的,我做開源社已經十年了。之前還在華為或者是某些企業在做一些開源,還有開發者生态相關的工作。為什麼企業也好,或者是創業團隊也好,會想利用開源,作為一把利刃往這個市場切一塊餅下來? 如果產品能力或在行業趨勢中并非領先,開源可以作為一種突破方式。例如,在大模型領網域,OpenAI 是領頭羊,後面還有很多後起之秀,也就是説在這個過程當中,開源會是異軍突起的一種方式。
第二點,開源對于開發者來説體驗友好,因為它提供了更高的自由度和創意空間。許多開發者傾向于使用開源模型,因為他們可以站在巨人的肩膀上。很多開發者喜歡用開源,單純是因為自由度創意度更高。
去年 11 月份的那一次開源不是我做的決策,當時我剛加入公司。我很清楚公司的邏輯。去年,所謂的中國大模型的格局去年年底就定了。最早做開源的智譜、百川等企業起來了。零一在 11 月份發布,如果不是用開源方式,可能難以出圈。當然,今年也有其他創業公司開始開,以去年的維度來講,在這個時候開源是明智的。
很多人認為開源是靈丹妙藥,但實際上,開源只是手段之一。你的模型必須足夠優秀,讓大家覺得開源對他們有用。Hugging Face 現在有太多的開源項目。越多人嘗試,無論是模型本身的能力,還是開發者的使用體驗,甚至是衍生作品,都變得重要。為什麼一個開源項目重要,是因為很多人基于它創造出許多衍生作品。最近 Hugging Face 也開始關注哪些項目是上遊,哪些是下遊,以及它們之間的關系。
硅星人内容中心負責人王兆洋
王兆洋:王鐵震之前説過,要看家族的大小規模,有多少衍生出來。
王鐵震:點贊是很容易的事情,下載也是很容易的事情,這些都是可以作假的東西。Hugging Face 還有一些特殊情況,它沒有辦法體現中國開發者的下載數量,因為它在國内有一些問題。所以真正能夠比較模型是不是被社區所接受,是不是暢銷,你就看有多少人投入精力,投入算力,做出模型,這就是生态。不是開源模型能夠直接滿足客户需求,是基于你的模型做一些想不到的場景去解決客户的問題。你和客户之間就是你的生态,這個生态的大小,就是衡量開源模型是不是暢銷非常好的指标。
林旅強:當時我加入零一之後,我們團隊對于生态建設确實沒有考慮特别詳細。我當時就制定了幾個指标,我們一定要想辦法成就使用我們的開發者,盡可能讓我們的衍生作品能夠獲得成功,而不是讓競争對手的產品占據優勢。理論上,我們的衍生作品應該比我們強,因為它加上了各種各樣的場景。我不具體提及國内有哪些公司是我們的衍生作品,我們都是邀請他們加入我們的社區,共同讨論技術問題。我們的目标是建立一個技術生态,而非商業生态。後面雖然零一萬物的模型并不是所有開發者都知曉,但在圈内,開發者金字塔的頂部,我們确實留下了深刻印象。
王兆洋:我們一直在關注零一的進程,包括您提到的中國五小虎或六小虎格局的演變。去年我們也在觀察,發現有一個階段,無論是人才還是模型,都已經穩定下來。國内另一家非常知名的公司創始人也曾提到,他們計算出一個時間視窗,必須在這個時間視窗内完成融資和團隊建設,零一也是在這個時間視窗内。大家當時認為,如果在這個時候不發布一些模型,大家的腦子裏記不住那麼多模型。所以從一開始,零一做出開源的決策,可以説是在競争策略上的一個判斷。
林旅強:開源在每一家企業都是競争策略。不管是大模型,或者是其他的軟體,在開源的時候一定是想清楚,我做這件事情對我某階段的競争是想以小博大,還是要博取大家的眼球?
零一萬物開源負責人、開源社聯合創始人林旅強 " 寫博客 " 為何如此重要
王兆洋:我關注零一的公眾号以及官方博客,我覺得它在國内寫得很好。每次發布的内容,無論是技術點還是講解方式,都處理得很好。這是我們接下來讨論的問題,也是許多中國開源貢獻者非常關心的問題:怎樣在全球化的開源社區中提升自己的存在感和影響力?實際上,你們所做的工作,包括文檔的編寫和梳理,都是為了朝這個方向努力。你可以和我們分享一下,這些為什麼如此重要?此外,你還有什麼可以分享給大家的,無論是遇到的困難還是經驗。
林旅強:真正做好開源工作,關鍵在于以開發者為中心。我最初審視我的模型時也是這麼想的。當我最初加入項目時,發現項目該有的都有,但這些内容如何能讓開發者一目了然地看到項目的定位,清晰地看到不同部分的内容,并迅速找到他們需要的部分,這是非常重要的。有時候,某些文檔非常長,我需要能夠快速定位到我需要的部分,以及整個文檔目錄的編排。
我觀察過一些項目,包括零一最早的版本,它和 Hugging Face 一樣,README 文字長達數萬字。作者想把想説的一切都寫進去,但我發現雖然内容詳實,能找到相關信息,開發者可能只是簡單滾動一下,5 秒鍾後就退出了。我當時定了一個要求,首先,Hugging Face 的 model card 應該用最少的文字説明這個模型能做什麼,更偏向代碼的内容放在 Hugging Face 上,README 檔案則作為導覽。
我認為對文檔進行整改是目前中國許多公司沒有投入人力或者不重視的事情。他們認為模型已經開放了,用不用随你。這種對開發者體驗的細微關注,有些開發人員可能會覺得,你們确實下了功夫。説白了,模型有多強大,并不是我們開源團隊的工作,那是模型訓練團隊的事。我接到一個模型後,會想辦法通過我的方式,讓開發者能夠無縫地體驗。
博客也是這樣,我們寫出來的東西,我會不斷打磨,思考哪些字是否太生僻,是否應該寫得更簡單一些,但不能出錯。哪些段落需要改進,甚至讓博客與我們聯動,有些内容不必在博客中詳述,可以鏈接到其他地方查看。博客的目的是傳遞信息,而不是把所有内容都講清楚。這些内容大家可以思考,很多開發者説他們不喜歡寫注釋,不喜歡寫文檔,因為他們認為代碼本身就能説明一切,能看懂我的代碼就是高手,看不懂就不行。我覺得這種説法只适用于與你水平相當的開發者,但我們要服務的是所有人,而不僅僅是最高端的用户。通過這種方式降低開發者的門檻,我們做得不錯,不敢説是最好的。
王兆洋:這和我們在做的工作很像,要讓讀者更容易理解我們所傳達的内容。林旅強所講的,以及我自己的觀察,不僅僅是國内從事開源工作,尤其是模型領網域,還涉及到整個組織負責開源部分的 OKR 和 KPI。前不久在硅谷與 OpenAI 的人交流,他們的一個重要 KPI 是寫博客以及博客的點擊率,早期的情況就是這樣。實際上,在海外的技術溝通中,開源社區對文檔的重視程度是非常高的,這是其中一個非常真實的例子。你會接觸到許多中國開源的參與者和海外的很多明星項目,除此之外,你觀察到有哪些是我們尚未意識到其重要性,但實際上非常有用的地方?
HuggingFace 工程師 王鐵震
王鐵震:這是個很好的問題。現在寫技術文檔,閱聽人不再僅限于技術人員,現在大語言模型所謂的滲透率在逐漸增長,越來越多的人開始在自己的電腦上運行這些模型。這些用户的背景和我們通常假設的寫技術文檔人不一樣。因此,能否有效地将信息傳達給沒有技術背景的人,實際上對于模型用户增長是一個非常重要的指标。
現在 Hugging Face 等工具變得越來越便捷,大語言模型将不再是機器學習專家的專屬領網域,而是像 Word 和 Excel 一樣。未來,用户可能只需通過 Prompt 描述需求,準備一些樣例數據,就能訓練大模型生成符合他們需求的輸出。随着用户群體的擴大,我們需要重新思考如何制作技術文檔,甚至如何進行傳播。
例如,零一模型發布後,傳播做的很好,包括李開復老師有做轉發。如果能夠通過一些好的文檔、博客或其他途徑獲得更多的關注度,這對于開源模型影響力的擴大也是非常重要的。
把模型看着很技術和枯燥的事情,變成大家看得見摸得着很好玩的事情,對模型有非常重要的價值。
我想提一個常被忽視的問題:開源模型的運營工作由誰來承擔?我們需要讓模型滲透到更多人中去,那麼誰的運營會更有效?在國内,運營團隊往往與開發團隊分開的,他們缺乏足夠的技術背景。如果一邊是我們自己的團隊的研究人員,另一邊是面向用户群體的研究人員,那麼中間的文科背景人員,沒有太多代碼經驗,他們在傳遞信息時會非常辛苦,兩邊的溝通也不順暢。
我們的策略是,應該讓具有技術背景的人,甚至是研究員親自參與進來。OpenAI 就是一個全員參與的例子,他們自己的研究人員親自撰寫博客,全員成為 KOL(關鍵意見領袖),這是一個很好的場景。
我們可以在 Twitter 上看到很多專業的讨論,因為參與的人群本身比較專業,一些概念就比較容易解釋清楚,比如零一模型的事情在 Twitter 上很快就被説清楚了。因此,是否能夠将團隊中的研究者釋放一部分力量,投入到運營中,這是一個戰略上的考慮。同時,這也有助于研究員打造個人的 IP,對于研究員來説,吸引他們的不僅僅是公司能提供多少薪資,而是公司能否将他們塑造成網紅。這種接近研究員與研究員之間的溝通,有助于企業吸引優秀人才,樹立良好形象。國内企業如果考慮開源,可以考慮讓自己的研究員走到前台,更多地與大家交流。
王兆洋:這是硅星人也想做的,把他們的研究成果報道出來,不只是關心一些一夜颠覆的事情。我向兩位提出一個問題,這關乎中國在開源領網域的存在感和影響力。零一一直在這樣做,包括我們在硅谷也能感受到,那裏的氛圍更為輕松,更多以個體的形式發聲,無論是 KOL 還是其他。首先,中國開源的貢獻者在模型能力或動線方面的質量很高。但為了争取更多的關注度,我們似乎選擇了另一條路,給人一種苦大仇深的感覺,即我比你更極致地開源,我把所有的東西都給你拿去用。這樣的效果真的好嗎?
我們确實觀察到,斯坦福的教授在課堂上舉例時提到,你們這不是真正的開源,中國的模型開發得更多。後來我自己反思,這可能是在學術環境中的分享方式,對于整個開源社區,尤其是 Hugging Face 也能感受到,無論是開源社還是零一,在與更廣泛的社群接觸時,這些策略,或者説是被逼迫出來的策略,它們的真實效果如何?你怎麼看這樣一個趨勢?我們是否應該繼續這樣做?請兩位談談你們的看法。
林旅強:我分享一個我的觀察,我從事開源工作已有十幾年,而涉足大模型領網域至少也有一年了。實際上,我發現這一切與整個大環境,包括文化和就業環境,都有着密切的關系。
首先,從文化角度來看,美國或西方社會比較鼓勵個人發表意見。你説得越多、越大聲,哪怕不完全正确,也會有人成為你言論的追随者。而在中國,我們講究中庸和集體主義,也就是説,如果我發言説錯了什麼,會不會帶來什麼問題?我自己就處在這樣的矛盾之中。
其次,與大模型玩家相關。實際上現在大家都很努力,尤其是在中國。我認識很多這樣的團隊,他們想的是如何趕超。所以有些事情可能趕超的方法是發表某些論文,但大家在選擇論文的方法去做時,不會過早透露,因為有些事情是公開的秘密,論文都是開放的,你選擇哪一個,你不會去説。這些如果太早説,對趕超的心情會有所不同。
第二點是關于時間。我目前沒有聽説過國内有哪個團隊将寫博客作為其 OKR。原因是寫一篇好的博客不亞于開發一個大模型,時間和精力應該放在哪裏,成就就在哪裏。可能當前還在趕超階段的時候,還沒有那麼多的時間。不過,我説這些事情,只是説明現在是這個情況。我們真的從強大到偉大,我們需要真的把這些事情釋放出來。比如 Google 的 20% 時間政策才能創造出偉大的成果,沒有的話就出不來。這是中國邁向強大的路,我們如何繼續走向偉大,這就是我們看到的問題。
王鐵震:我同意林旅強説的。從第二到第一,不停的創造不停的領先,是不同管理的思維。當你是第一的時候,你不知道你的方向在哪,你需要不停的探索,就像為什麼偉大不能被進化一樣,需要在一線的人做不停的嘗試,從這裏面找到一些真正的方向。
分布式,語音,數據集……算力限制之下,開源依然有機會
王兆洋:我們之前讨論了開源的現狀,以及我們的主題——讓中國的開源開發者被更多的社區看見。最後一個話題,可能更抽象一些,或者更宏觀一些,從更寬廣的視角來看開源和閉源之間的關系。剛才我和王鐵震私下聊天時,有一個觀察:開源鼓勵創新,它是各種新想法出現的第一個土壤;而閉源則一直追求穩定、商業化和實際落地的產品,這兩者各有分工。與前幾波開源閉源技術浪潮不同的是,大模型這一波有一個越來越明顯的特點,那就是資源——你的卡,這些資源決定了一個想法能否走得更遠。從最早的 Transformer 模型為什麼是 Google 做出來的,這個架構很多人在研究,那是因為它擁有大量的 GPU,能夠堆砌出多層的注意力機制。
我們看到 OpenAI 也走類似的路,要建立十萬百萬卡的集群。在開源社區,甚至包括學術界,資源的差距越來越明顯。讓我覺得,開源提供了很好的 idea,而閉源把它其吸收并轉化為成果。從技術進步的角度來説,用户沒關系,但從整個開源生态來説,現在是不是存在這樣一個問題?你們認為有什麼辦法或建議嗎?包括零一自己在做什麼嘗試?或者開源社,Hugging Face 這邊看到了什麼新的嘗試?
王鐵震:我覺得開源社區和學術界卡少是非常現實的問題,不是我們在這裏讨論一下,大家給予開源社區更多關注,請求捐助硬體資源就能解決的問題。閉源可以支持研究的持續運轉,而開源社區可能只能得到一次性的捐助,不可能持續不斷地獲得捐助。實際上,有很多新的領網域非常值得開源社區去探索。
我最近看到了兩個非常有趣的事情。一個是海外的一個分布式平台,我們也參與捐贈了一些卡。他們的目标是實現跨國、跨洲的集群訓練。通常,模型訓練需要大量的通訊,你需要把所有計算機放在同一個位置,以增加通訊帶寬,更快地完成模型訓練。現在有人在思考,是否有算法上的優化可以降低通訊對帶寬的需求,降低通訊本身的需求,改變機器之間交換數據的方式。
之前 Web3 社區有很多設想,他們在訓練一個大約 10B 參數的模型,大概跑了 30% 的 token,我們當時捐贈了幾個 H100 的機器。遺憾的是,作為最缺乏硬體資源的中國,在地圖上并沒有看到中國企業的支持,主要是歐洲和美國的企業。也許中國可以開啓一個項目,把中國、非洲、東南亞等算力連接在一起,共同訓練一些真正開源的模型,包括數據集和訓練過程,通過真正開源的方式造福整個行業。這需要更多的分布式設計和算法上的巧妙思考,這不是簡單地增加硬體資源就能解決的問題。
另外一個,上周我參加了 RTE 活動,聲網作為 OpenAI 非常重要的合作夥伴,現在可能我們面臨一個範式轉變。2022 年有一個範式轉變,以前大家説要定制一個模型,現在變成了使用通用模型。現在的範式轉變是,從需要打字互動的大語言模型界面,未來很快會更新為純語音互動的界面。這種互動範式的革命将帶來很多後續變化。
現在讓我使用一個大語言模型,我什麼時候會用?有事的時候才會用,坐在那打開網頁,敲鍵盤,我的打字速度也不快。如果是語音的話,我甚至可以 24 小時一直保持溝通,而且用帶有情感的語音跟我聊天,最好説,它跟我聊天的内容是保密的,這些東西都可以放在我的手機上。這裏面也不一定需要特别大的模型,因為大模型肯定解決不了延遲問題,哪怕在伺服器上,多一個網絡的延遲,這是物理決定的。這裏不需要太多的卡,你就可以做出一些成績。也許我們做學術或開源的,也可以不去紅海裏競争,而去藍海裏尋找一些新的方向。
王兆洋:這兩個都是非常有意思的洞見和觀察。
林旅強:我從另外一個角度看。剛剛提到把算力串聯起來,是因為現在這個時間點,算力确實是一個很大的門檻。但如果我們從歷史規律來看,我們回想 1980 年代,自由軟體和開源軟體是如何發展起來的。當時軟體行業興起,原來 UNIX 類作業系統紛紛閉源,現在非常像那個時代。當時,大家必須排隊使用算力,而且只有機構才有這樣的資源,個人是接觸不到的。很多實驗室裏的情況和現在的大模型一模一樣。但是,什麼時候改變了這個局面?是摩爾定律。無論是英特爾還是其他算力公司,都是在硅谷那個時期崛起的。算力成本下降,性能提升,自由軟體和開源軟體也遍地開花。我認為再過 5 年,或者一段時間,開源真的能夠反噬到現在的閉源和私密性。因此,如果現在投入到開源相關領網域,并且能夠持續較長時間,這是非常值得投資的。因為摩爾定律在 GPU 領網域也會發生,這是我看到的一個重要觀點。
第二點,現在我們能做什麼?現在算力這麼貴,我認為可以參與到開源數據集的貢獻中,因為這并不消耗算力。Hugging Face 上有很多這樣的資源,大家可以一起參與。之前有一個出圈的項目,很多人參與,包括我們公司的幾位博士生也參與了。我們覺得應該先讓開源這件事情運轉起來,社區在,等到新的事情發展起來,規模越來越大。目前中國的大模型圈子對于開源貢獻,對于數據集貢獻這件事,還沒有當成重要的事情,我呼籲大家多去參與。
王鐵震:因為現在開源模型很卷,你做一個數據集,你拿到的東西反而更多。
王兆洋:有心的開發者都可以借鑑一下,今天有很多創業的 idea,像實時語音互動的機會,剛才提到趨勢性的機會,在座有開發者,真的可以仔細琢磨的。總結一下,現在開源和閉源,或者説學術界包括在内的資源的差距是個事實了,在不可能短期改變的情況下,同時開源的社區也好,或者工作者,也有很多事情可以去做。如果你看歷史,你就知道開源的好日子還在後面呢。
謝謝,今天我們這個環節就到這裏。感謝兩位!