今天小编分享的互联网经验:什么是开源AI?官方定义终于来了 Meta Llama模型没过关,欢迎阅读。
开源 AI 终于有了 " 官方 " 定义。
长期致力于定义和 " 管理 " 所有开源事务的开放源代码倡议(OSI),周一发布了其开源 AI 定义(OSAID)1.0 版。根据 OSAID,AI 模型若要被视为开源,必须提供足够的信息,使任何人都可以 " 实质性地 " 重建该模型。模型还必须披露与其训练数据相关的任何重要细节,包括数据的来源、处理方式以及获取或许可的方式。
OSAID 还列出了开发者使用开源 AI 时应享有的使用权,例如可以为任何目的使用和修改模型,而无需获得他人许可。
OSI 执行副总裁 Stefano Maffulli 表示,制定开源 AI 官方定义主要目的是,让政策制定者和 AI 开发者达成一致。
" 监管机构已经在关注这一领網域。我们明确向各方利益相关者和社区进行了推广,甚至还试图联系那些经常与监管机构交流的组织,来获取早期反馈。"
" 开源 AI 是一种允许你完全理解其构建方式的 AI 模型,这意味着你可以访问所有组件,比如用于训练和数据过滤的完整代码。最重要的是,你应该能够在其基础上构建。"
OSI 并不强制施压开发者遵守 OSAID 定义,但打算对那些不符合该定义却被描述为 " 开源 " 的模型进行标记。" 我们希望当有人试图滥用这个术语时,AI 社区会说,‘我们不承认这是开源’,并加以纠正。"Maffulli 说道。
Meta:我反对
目前,许多初创企业和大型科技公司,尤其是 Meta,称其 AI 模型发布策略为 " 开源 ",但很少符合 OSAID 的标准。研究人员发现,许多 " 开源 " 模型实际上只是名义上开源,但实际训练模型所需的数据是保密的,而且运行这些模型所需要的计算能力超出了许多开发者的能力范围。
例如,Meta 要求月活跃用户超过 7 亿的平台获得特殊许可才能使用其 Llama 模型。Maffulli 公开批评 Meta 将其模型称为 " 开源 " 的做法。而谷歌和微软在与 OSI 讨论后,已经同意不再将不完全开放的模型称为 " 开源 ",但 Meta 并未这么做。
此外,长期宣传其模型为 " 开源 " 的 Stability AI 要求年收入超过 100 万美元的企业获得企业许可,而法国 AI 新创公司 Mistral 的许可证则禁止将某些模型和输出用于商业用途。
Meta 自然不认同这一评估。尽管该公司参与了定义的起草过程,但对 OSAID 的措辞表示异议。Meta 发言人称,Llama 的许可条款和随附的可接受使用政策对有害应用提供了防护。Meta 还表示,在加州 AI 相关法规正在演变之际,该公司对共享模型细节的做法是 " 谨慎的 "。
" 我们在许多方面与 OSI 的伙伴立场一致,但我们以及业内其他公司都不同意他们的新定义,我们认为没有单一的开源 AI 定义,因为过去的开源定义无法涵盖当今迅速发展的 AI 模型的复杂性。我们让 Llama 免费公开使用,并通过许可和使用政策来确保安全。无论技术定义如何,我们将继续与 OSI 和其他行业团体合作,增加免费 AI 使用的便利程度。"
分析认为,Meta 不愿公开训练数据,很可能与其自身及大多数 AI 模型的开发方式有关。
AI 公司从社交媒体和网站上收集大量影像、音频和视频等数据,并以这些 " 公开可用数据 " 训练模型。在如今竞争激烈的市场中,数据集的收集和优化方法被视为竞争优势,公司常以此为由拒绝披露。
但训练数据的细节也可能让开发者面临法律风险。作者和出版商声称,Meta 使用了受版权保护的书籍进行训练。艺术家们也对 Stability AI 提起诉讼,指控其使用其作品而未给予认可,将其行为比作盗窃。
因此,OSAID 的开源 AI 定义,可能会给那些试图顺利解决诉讼的公司带来问题,特别是如果原告和法官认为该定义足够合理而在法庭上引用。