今天小編分享的科技經驗:碾壓LLaMA的最強開源大模型居然來自阿聯酋,OpenAI和HuggingFace 為它吵了起來,歡迎閲讀。
這兩天 hugging face 的榜單出現了一個異數。一個名為 Falcon 40B 的模型,突然成為了 hugging face" 開源 " 大模型排行榜的第一名。
這一成績直接将一眾大咖加持的開源的模型踩在腳下,包括但不限于扎克伯格同學旗下的 LLaMA、新晉明星獨角獸 Stability AI 等公司。其中,LLaMA 的模型規模甚至更大,達到了 65B ——比 Falcon-40B 大出了 50%。
按照國際通用慣例,網友們少不了又要拉踩一把扎克伯格。
Hugging Face 過去一直被認為是大模型領網域 GitHub,在人類大模型的開源事業的道路上不遺餘力,被一些觀察者認為是 OpenAI 最具潛在挑戰能力的平台。因此 Hugging Face 的榜單,被從業者給予了很高的參考價值。
按照 Hugging Face 方面表示,其整個榜單使用 Eleuther AI Harness 的評估框架,被抽成四個标準:
25 個小樣本的推理邏輯測試(ARC:AI2 Reasoning Challenge)、10 個樣本的嘗試推理測試(HellaSwag)、5 個樣本的多任務準确性測試(MMLU)以及誠實測試(TruthfulQA)
而在全部四項打分中,如圖一所示,除了誠實測試表現相對一般外,其他三項都大幅領先對手。而在新推出的 instruct 版本中,誠實性能力也跟上來了。
Falcon 備受外界關注,原因主要有幾點。
一方面,如果僅以這個榜單數據來看,Falcon 相比于友商的提升幅度很大。LLaMA-65B 之後的排序的分差往往在 0.3 分以内,但 Falcon-instruct 直接提升了 3.4 分。
另一方面,Falcon 與馬斯克的火箭重名,但其實是目前為數不多的非西方國家實驗室開發的開源大模型產品。Falcon 背後的研發方來自阿聯酋的阿布扎比技術創新研究所(TII),這也是中東首個世界頂級的大模型產品。
TII 的背後則是阿布扎比先進技術研究委員會 ( ATRC ) ,因此是阿聯酋政府官方扶持技術創新項目。
而根據阿聯酋通訊社的報道,Falcon-45B 使用了 1 萬億個 token 進行訓練,可以用更少的訓練計算能力實現更優的效果,其僅相當于 OpenAI GPT-3 訓練計算的 75%,DeepMind Chinchilla 人工智能的 40%,谷歌 PaLM-62B 訓練計算的 80%。
阿聯酋通訊社進一步表示,作為開源的大模型工具,Falcon-45B 的出現:
" 強化了阿聯酋作為全球 AI 領導者的角色 "。
目前來説,Falcon-40B 雖然是開源大模型的第一名,但是和 " 不 Open" 的 OpenAI 相比,還有相當大的差距。而在越來越公司對開源保持謹慎态度的情況下,Falcon 獲得 " 開源大模型第一 " 其實也算是 " 撿了個漏 "。
不過很快有從業者發推特質疑 Hugging Face 的評價體系。
有 Inflection AI 員工發推認為 Hugging Face 得出的數據與論文的評分有一定的差異。在這條質疑下面,前特斯拉 AI 負責人、OpenAI 元老級人物(founding member)Andrej Karpathy 跟進評論:
" 這就是我目前避免評論 falcon 的原因 "。
Andrej Karpathy 曾經是李飛飛的高徒、全球頂尖的 AI 科學家,對 OpenAI 的發展起到了很大的作用,也一手推動了特斯拉自動駕駛項目的發展,可以説是特斯拉 autopilot 之父。
當他對 hugging face 的标準提出質疑時,這并不能被認為是一個輕飄飄的指控。
果然 hugging face 聯合創始人 Thomas Wolf 聞風而至,對同行進行了友善的科普,表示他們的使用的評價工具的準确性是可靠的。
這其中詭異的點在于,hugging face 的榜單不是一天發出的,Eleuther AI Harness 也是一個主流的評價體系。但當 Falcon 衝榜後,卻出現了兩位對評價體系 " 不理解 "、" 不确定 " 的 " 外賓 "。
看來硅谷還不是很适應來自中東的神秘科技力量,對這種 " 新鮮事物 " 條件反射地用審視的眼光去打量。
不過,Falcon-40B 最大的争議或許不是來自于能力,而是來自于其對 " 開源 " 事業的 " 誠心 "。
因為 Falcon 對商業化開源留了一個 " 後手 ",雖然使用者原則上免費,但如果收入超過 100 萬美金,依然需要繳納 10% 的授權費用。
但由于 falcon 的許可證其實部分基于 Apache License Version 2.0。後者來自 Apache 基金會,對商業開源是友好的。那如果 falcon 拿着免費開源的許可協定,未來依然會收取一定的商業化費用,這似乎依然算不上真的 " 開源 "。
大模型确實很燒錢,即便貴如中東土豪,也不希望徹底的開源。
而根據 TII 方面的消息,阿聯酋方面預計将很快發布新的 Falcon-108B 的千億級大模型。
無論是開源和閉源、西方和東方、科技投資和石油資本,屆時圍繞大模型的科技競争可能會變得更有意思。
圖片來源:網絡