今天小編分享的互聯網經驗:被冤枉的李開復,被“錯付”的中國開源,歡迎閲讀。
出品 | 虎嗅科技組
作者 | 王一鵬
頭圖 | 視覺中國
就像過往所有的開源 " 套殼 " 事件一樣,漩渦中心的主角們,往往在開源社區和輿論的聲讨下成為眾矢之的,又在發布回應或道歉信後,快速被遺忘,不論結果與對錯。
李開復和他的零一萬物就是如此。11 月 6 日,零一萬物首次公布 Yi-34B 大模型,自豪地宣布 Yi-34B " 勇奪全球開源評測‘雙料冠軍’ "。然而僅過了不到一周,在大模型開源社區的主陣地 Hugging Face,就有開發者指出,Yi-34B 完全使用了 Meta 開源的 LLaMA 架構,只修改了兩個張量名,且在發布中,全程未提及 LLaMA 的存在。
由于李開復本人的 " 明星效應 ",事件快速發酵,引爆了輿論。11 月 15 日,零一萬物發布回應,道歉并承諾把張量名字改回去,同時復盤了零一萬物在大模型訓練和代碼層面所做的工作。
其實李開復是有點委屈的,因為零一萬物似乎沒做錯什麼。
一位律師向虎嗅表示,他和來自英美的律師團隊,都就此事有過交流。各位律師從各自法網域的視角出發進行分析,認為零一萬物并未違反 LLaMA 的開源協定。
甚至在國外開源社區,也有不少專家為零一萬物鳴不平。事件的源頭人物,在 Hugging Face 社區披露此事的 Eric Hartford 在社區不斷強調,他只是建議零一萬物将修改的張量名改回去,并不帶有其他指責,使用 LLaMA 架構沒什麼問題,模型訓練才是一切。
X(Twitter)上也有人回應對零一萬物抄襲的指責:荒唐,現在許多大模型都是基于 LLaMA 訓練的。況且,事件發生一個月的時間裏,Meta 或 LLaMA 社區,自始至終未以官方身份與零一萬物,就所謂的 " 套殼 " 問題進行交涉,某種程度上也代表了官方的态度。
截止到 12 月 8 日, Yi-34B 在 Hugging Face 上已收獲 11 萬次下載,顯然非常受歡迎。
圖片内容來自 Hugging Face
但這些事實,與主流輿論聲音無關。在與國内多位媒體人、開發者交流後,我們發現,幾乎無人 " 站隊 " 零一萬物。一股萦繞不去的失望、不滿,飄蕩在零一萬物及中國開源的上空。
一場社區争論,成了捅向零一萬物的 " 刀 "
Jos é phus Cheung 是在零一萬物 " 套殼 " 事件中,受到關注較多的一名開發者。在 Hugging Face 的社區,他和前文提到的 Eric Hartford 爆發了一場帶着火藥味的争論。
Eric Hartford 稱零一萬物修改張量名就好,其他的沒毛病。而 Jos é phus Cheung 則認為零一萬物此舉違反了 LLaMA 的開源協定,是個大問題。
雙方的激辯因為 Transformer 核心貢獻者、Hugging Face 工程師 Arthur Zucker 及其他開發者的介入而終結,大家回復 Jos é phus Cheung 道,LLaMA 的開源協定主要限制了模型權重,而不是模型架構,所以零一萬物的 Yi-34B 并未違反開源協定。
有趣的是,這場公開的争論傳回國内時就變了味——大量的媒體、UGC 内容單方面引用了 Jos é phus Cheung 的言論,稱零一萬物被開發者警告存在合規風險,而對反對派的聲音及最終結論避而不談。恐怕 Jos é phus Cheung 自己也不知道,他的發言已經成為一部分人聲讨此事的間接證據。
造成此種問題的原因之一,是大模型技術本身的特殊性。有專家與虎嗅聊到,大模型有三大件:算法、數據和權重。
其中,算法以模型架構為載體呈現,也是零一萬物飽受非議的焦點;數據則是大家讨論 AIGC 通常會聊到的數據集,相當于給 AI 提供的學習教材;權重是神經網絡的基本概念,代表了兩個處理單元之間的連接強度。通俗地來理解," 權重 " 就像一個員工給另一個員工發消息——有的是普通消息,有的是特别提醒,有的是 "Ding" 一下。而對于接收消息的員工而言,消息權重越高,影響越大。
這與過往的軟體產品截然不同。曾幾何時,代碼等于一切,對應着大模型概念裏的 " 模型架構 "。對于大模型來説,架構只是 " 三大件 " 的其中之一。在 Mamba 架構面世未久,Transformer 架構一統江湖的當下,甚至架構的重要性還不如數據和權重。而數據和權重屬于工程性問題,對應着模型的訓練。有知情人透露,OpenAI 訓練 GPT-4 時,可能有 20 個團隊同時參與,是相當龐大的工程。
所以,Yi-34B 使用 LLaMA 架構,遠遠談不上 " 套殼 ",這是大模型技術本身的特殊性決定的。
有大模型技術專家,對虎嗅就大模型的早期研發問題也做了進一步補充:"LLaMA,GPT 都是基礎大模型,基于 Transformer 架構訓練,使用了不同的方法,有 encode-decode 結構的,也有像 GPT 類 decode only 的。所以從零開始的話,就是要基于像 transformer 這樣的架構重新開發,并自己訓練,各大廠商自研大模型都是如此的。還有一類就是基于現有的基礎大模型,有 Continue Pretrain,finetune 等方法,進行再訓練或者微調,基于 LLaMA 這樣的開源架構,有很多團隊在上面做工作。"
也就是説,基于 LLaMA 訓練大模型,是國内大模型創業的主流形态,至于從零開始自研,有專家表示:" 國内沒有幾家創業公司能做到這事兒,成本很高,算法要求很高,數據集要求很高,工作量很大,也很容易出錯。"
另有行業内人士對虎嗅説道:" 國内真正從零到一研發大模型的可能也就三家——百度、阿裏、智譜。"
當然,上述所有真實情況,并未讓零一萬物在國内輿論層面得到同情或豁免,甚至也沒有使其在技術社區獲得更多支持。
一方面,零一萬物發布大模型,卻對 LLaMA 采取避而不談的宣傳策略—— LLaMA 的唯一一次出現,是在 Yi-34B 的競品性能對比裏,且數據指标被超越——難免讓人覺得零一萬物在道義上對 LLaMA 有所虧欠,在宣傳上玩了一個小小的 " 心機 "。
圖片内容來自零一萬物官方公眾号
另一方面,國内的開源歷史,實在談不上陽春白雪,甚至可以説是飽受争議。一樁樁 " 套殼 " 公案,屢見不鮮,公眾的忍耐度,就像充氣過度的氣球,處在爆發的邊緣。今天對零一萬物的所有質疑,其實都是在質疑那個外表光鮮的中國開源。
中國開源,積怨已久
就在今年 8 月 24 日,一款宣稱是完全國產、自主研發的 IDE 開發工具上架了,結果被網友扒出是 " 換皮微軟 VSCode",引發群嘲,兩天後出品方致歉并将軟體下架。
2021 年,StartRocks 和 Apache Doris 發生糾紛。 Apache Doris 本是由百度捐獻給 Apache 基金會的數據庫項目,StartRocks 則是 Apache Doris 的項目分支,原名叫 DorisDB,鼎石縱橫團隊圍繞 DorisDB 成立商業公司,在品牌方面構成侵權。據思否報道,Apache Doris 的項目導師、孵化器 PMC 都曾聯系 StartRocks 進行勸阻,但被無視。一系列糾紛被曝光後,StartRocks 引發眾怒,不得已私下與 Apache Doris 達成和解,息事寧人。
2020 年,中科院計算所下屬團隊号稱完全自主設計、開發和實現的編程語言 " 木蘭 ",被人發現套殼 Python。相關負責人道歉,説 " 木蘭 " 編程語言原本要用于中小學教育,是他自己誇大宣傳了。
3C 領網域更是開源違規的重災區,小米、一加、文石(電子書廠商),都曾成為社區的集中吐槽對象。中國開源的 " 違規史 ",簡直可以寫成一本年鑑。
而開源本身帶有國際屬性,連帶使中國優秀的開源人,在國際上遭受不同程度的非議和歧視。
一位國外網友曾在 Reddit 上抱怨道:" 這就是我不喜歡中國軟體的原因,他們幾乎總是不尊重許可證,并盡一切可能逃脱懲罰(This is why i don't like chinese software.Almost aways they don't respect licenses and do whatever they can get away with)"。
在很長一段時間裏,中國的開源布道者們,都是帶着少數優秀項目,與行業慣性和國際歧視 " 拔河 ",時間一久,就會 " 苦中作樂 " ——某知名開源基金會布道師對虎嗅表示:" 説心裏話,現在挺好了,已經有很多進步了。如果是十年前,有人套殼開源軟體,甚至不會引發任何讨論和報道,誰關心呢?現在至少大家會讨論這事兒。"
2021 年,Apache Skywalking 創始人吳晟,當選 Apache 基金會第一位華人董事,成為圈子裏普天同慶的喜事。
有利可圖,無需付出代價,通常是違規行為的誘因。使用免費代碼的利益,顯而易見。而在開源問題上弄虛作假,确實也不會對國内的企業產生太多實質性影響。
一般套殼的懲罰也不過是道歉并将軟體下架,但因為這類軟體都是套殼抄襲的,所以也不存在太多研發上的 " 沉沒成本 "。
直到 2021 年,國内才出現第一起與開源協定(GPL)有關的侵權案件,被告作為侵權方最終被判罰 50 萬元。而與 GPL 協定相關的第一起案件宣判,已經是 2005 年發生在德國的事了。從 2005 年到 2021 年,中國開源在法律層面存在 16 年的實踐空白。
在實施力度上,中外也有所差别。在 2005 年的案子裏,慕尼黑法院對侵權方 Fortinet 發出了臨時禁令,禁止 Fortinet 銷售產品,直到符合許可證條款。同時, Fortinet 被迫根據 GPL 協定将他們的 FortiOS (一款服務軟體安全領網域的作業系統)免費提供給外界。
開源相關侵權案的審理,更多是在參考傳統的著作權糾紛案件。與刑事案件不一樣,著作權糾紛案件,需要由被侵權方主動發起訴訟。在這起 Fortinet 侵權案中,發起訴訟的是一個非營利性組織 gpl-violations.org,該組織發起于 2004 年,致力于對侵權者施加壓力,對侵權行為發起行動。國外,這樣的組織不止一個,在國内則難得一見。
那麼,資本層面會對開源違規行為做出反應嗎?虎嗅也試圖就此類問題,與投資人進行溝通,但大家則對此諱莫如深,不願多談。目前還未有明确證據顯示,國内企業發生開源違規,會導致融資困難。
不過,一名在開源領網域創業的 CEO 對虎嗅説道:" 如果是在美國,這樣的公司(發生侵權、套殼行為的公司)後續就不會拿到融資了。"
真正的痼疾:開源等于免費
實際上,即便不考慮弄虛作假的情況,當下中國的大部分開源項目,也與理想模式相去甚遠。大眾層面對于開源所有的期待,其實可以用一句話來總結:打破技術壟斷,振興中國技術。但中國開源當下只是個瘦骨嶙峋的孩子,不足以背負這種宏圖偉願。
開源的概念很抽象,公眾對其更直觀的印象來自一些改變世界的偉大軟體,比如:Linux、MySQL、Android,以及如今的 Transformer。其中,Linux 内核遍布全球伺服器、IoT 設備,MySQL 撐起全球數據庫的半壁江山,Android 撐起手機作業系統半壁江山,Transformer 幾乎是所有大模型的架構基礎。
将 " 印象 " 等化為 " 期望 ",讓現實變得有些難以接受。事實上,中國開源的發展目标,在產業側是妥協過的,創業的 CEO 往往不會太感性,只求先在商業層面獲得成功即可。
但 " 曲線救國 " 的策略有利有弊,在中國出現一家成功 IPO 的開源企業之前,妥協的惡果已經開始顯現。
開源有一條重要的原則叫做 "Upstream First",上遊優先原則,意味着企業在免費試用開源代碼的同時,也要反饋意見和代碼到開源社區,确保社區維護的主幹版本可以優先迭代,推動軟體不斷走向完善。這是開源能夠創造價值、互惠互利的 " 飛輪 "。
但一部分國内企業選擇竭澤而漁。在他們看來,開源沒有這麼復雜——開源等于免費。向社區貢獻代碼?要麼招聘幾個社區開發者,要麼以後再説吧。
這或許也解釋了,為什麼在 AIGC 快速發展的 2023 年,中國企業在大模型上的爆發,僅限于數量——抄來的終究是别人的,不參與開源貢獻,通常也不會具備真正的技術優勢。
大模型在架構上的源頭是 Transformer,據 OSS Insight 數據統計,在 Transformer 社區中,提 Issue(答疑交流、反饋缺陷)的 Top 10 榜單,只有兩家中國部門,一個是北京大學,一個是清華大學,沒有一家中國企業。前五分别是:微軟、Hugging Face、谷歌、卡内基梅隆大學、英特爾。
在 Pull Request(貢獻代碼) Top 10 榜單裏,只有騰訊一家公司入榜,排在第十,前五分别為:微軟、Hugging Face、谷歌、英偉達、Facebook(Meta)。
Transformer 各企業 Pull Request 占比,内容來自 OSS Insight 網站
細看兩個榜單的前五名公司,微軟和谷歌皆是當今 AIGC 領軍人物,聯手奠定了當今的 AI 格局。Meta 發布了開源 LLaMA 大模型,成為最被中國企業青睐的 " 借鑑對象 "。Hugging Face 僅用一年時間就實現了估值翻倍,如今估值超過 40 億美金,NBA 球星杜蘭特也參與了其天使輪融資。
卡内基梅隆大學,前段時間剛與斯坦福大學聯手發布了 Mamba 架構,号稱要颠覆 Transformer。它實現了公眾對于開源的期待——學習、參與,最終完成超越。
再看看 LLaMA,Issue(答疑交流、反饋缺陷) Top 10 榜單,沒有一家中國公司入選,只有哈爾濱工業大學排在第五;Pull Request(貢獻代碼) Top 10 榜單,有三家中國公司:星鲸科技、騰訊、水木分子生物科技,分别排在第四、第八、第十位。
近五年,以 BAT、字節為代表的頭部企業,也注意到這個問題,紛紛成立開源辦公室,希望能塑造企業内的開源文化。但其中一部分項目,又被行業戲稱為 "KPI 式開源 " ——指員工為了完成 KPI 而去更新開源項目,該項目的壽命因 KPI 完成或崗位變動而終結。甚至有開源社區專家表示,根本不相信所謂的 " 大廠開源 ",認為其天然在社區貢獻者多樣性這個問題上存在劣勢。
目前公認比較健康的開源項目,大部分集中在雲原生、大數據領網域,分别捐贈給了 Linux 基金會和 Apache 基金會。至于剩餘的百餘家國產大模型企業,99% 不在這些榜單裏。近期關于 AIGC 的一系列重磅進展,也忠實地反映了這個結果。
這個結局,企業能接受,投資人能接受,某種意義上,部分開源人也能接受。剩餘不能接受的人,滿懷憤怒。這讓所有的明星開源創業團隊,都像坐在 " 火藥桶 " 上創業,一個火星,就能讓人灰飛煙滅。