什麼是開源AI？官方定義終于來了 Meta Llama模型沒過關

今天小編分享的互聯網經驗：什麼是開源AI？官方定義終于來了 Meta Llama模型沒過關，歡迎閱讀。

開源 AI 終于有了 " 官方 " 定義。

長期致力于定義和 " 管理 " 所有開源事務的開放源代碼倡議（OSI），周一發布了其開源 AI 定義（OSAID）1.0 版。根據 OSAID，AI 模型若要被視為開源，必須提供足夠的信息，使任何人都可以 " 實質性地 " 重建該模型。模型還必須披露與其訓練數據相關的任何重要細節，包括數據的來源、處理方式以及獲取或許可的方式。

OSAID 還列出了開發者使用開源 AI 時應享有的使用權，例如可以為任何目的使用和修改模型，而無需獲得他人許可。

OSI 執行副總裁 Stefano Maffulli 表示，制定開源 AI 官方定義主要目的是，讓政策制定者和 AI 開發者達成一致。

" 監管機構已經在關注這一領網域。我們明确向各方利益相關者和社區進行了推廣，甚至還試圖聯系那些經常與監管機構交流的組織，來獲取早期反饋。"

" 開源 AI 是一種允許你完全理解其構建方式的 AI 模型，這意味着你可以訪問所有組件，比如用于訓練和數據過濾的完整代碼。最重要的是，你應該能夠在其基礎上構建。"

OSI 并不強制施壓開發者遵守 OSAID 定義，但打算對那些不符合該定義卻被描述為 " 開源 " 的模型進行标記。" 我們希望當有人試圖濫用這個術語時，AI 社區會說，‘我們不承認這是開源’，并加以糾正。"Maffulli 說道。

Meta：我反對

目前，許多初創企業和大型科技公司，尤其是 Meta，稱其 AI 模型發布策略為 " 開源 "，但很少符合 OSAID 的标準。研究人員發現，許多 " 開源 " 模型實際上只是名義上開源，但實際訓練模型所需的數據是保密的，而且運行這些模型所需要的計算能力超出了許多開發者的能力範圍。

例如，Meta 要求月活躍用戶超過 7 億的平台獲得特殊許可才能使用其 Llama 模型。Maffulli 公開批評 Meta 将其模型稱為 " 開源 " 的做法。而谷歌和微軟在與 OSI 讨論後，已經同意不再将不完全開放的模型稱為 " 開源 "，但 Meta 并未這麼做。

此外，長期宣傳其模型為 " 開源 " 的 Stability AI 要求年收入超過 100 萬美元的企業獲得企業許可，而法國 AI 新創公司 Mistral 的許可證則禁止将某些模型和輸出用于商業用途。

Meta 自然不認同這一評估。盡管該公司參與了定義的起草過程，但對 OSAID 的措辭表示異議。Meta 發言人稱，Llama 的許可條款和随附的可接受使用政策對有害應用提供了防護。Meta 還表示，在加州 AI 相關法規正在演變之際，該公司對共享模型細節的做法是 " 謹慎的 "。

" 我們在許多方面與 OSI 的夥伴立場一致，但我們以及業内其他公司都不同意他們的新定義，我們認為沒有單一的開源 AI 定義，因為過去的開源定義無法涵蓋當今迅速發展的 AI 模型的復雜性。我們讓 Llama 免費公開使用，并通過許可和使用政策來确保安全。無論技術定義如何，我們将繼續與 OSI 和其他行業團體合作，增加免費 AI 使用的便利程度。"

分析認為，Meta 不願公開訓練數據，很可能與其自身及大多數 AI 模型的開發方式有關。

AI 公司從社交媒體和網站上收集大量影像、音頻和視頻等數據，并以這些 " 公開可用數據 " 訓練模型。在如今競争激烈的市場中，數據集的收集和優化方法被視為競争優勢，公司常以此為由拒絕披露。

但訓練數據的細節也可能讓開發者面臨法律風險。作者和出版商聲稱，Meta 使用了受版權保護的書籍進行訓練。藝術家們也對 Stability AI 提起訴訟，指控其使用其作品而未給予認可，将其行為比作盜竊。

因此，OSAID 的開源 AI 定義，可能會給那些試圖順利解決訴訟的公司帶來問題，特别是如果原告和法官認為該定義足夠合理而在法庭上引用。