今天小编分享的互联网经验:Hugging Face API令牌暴露,大批生成式AI模型岌岌可危,欢迎阅读。
Lasso Security 的研究人员近日在代码存储库中发现了 1681 个暴露的 Hugging Face API 令牌,这使谷歌、Meta、微软和 VMware 等厂商面临潜在的供应链攻击。
Lasso Security 在发布的声明中表示,暴露的 API 令牌使其研究人员能够访问 723 家组织的 GitHub 和 Hugging Face 代码存储库,这些代码库含有大语言模型和生成式 AI 项目方面的高价值数据。数据科学社区和开发平台 Hugging Face 表示,它拥有超过 50 万个 AI 模型和 25 万个数据集。
暴露的 API 令牌使众多组织的生成式 AI 模型和数据集面临各种威胁,包括供应链攻击、训练数据中毒和模型被盗。其中 655 家组织的令牌具有写权限,这使得研究人员可以全面访问代码存储库。
一些可以全面访问的代码存储库面向诸如开源的 Meta Llama 2、EleutherAI 的 Pythia 和 BigScience Workshop 的 Bloom 之类的平台和大语言模型。
Hugging Face 在声明中表示,所有暴露的 API 令牌现都已被撤销,但该公司似乎将责任主要归咎于客户。由于用户在 Hugging Face Hub 和 GitHub 等平台上发布了令牌,这些令牌被暴露。Lanyado 表示,Hugging Face 也有责任,并建议它应该不断扫描暴露的 API 令牌,要么直接撤销,要么通知用户。
Meta、谷歌、微软和 VMware 等许多组织和用户非常迅速地采取了行动,他们在报告发布的同一天就撤销了令牌,并删除了公共访问令牌代码。
搜索 API 令牌
随着大语言模型和生成式 AI 模型大行其道,Lasso Security 希望更仔细地研究 Hugging Face 的安全性,毕竟这是开发者社区的一个关键平台。研究人员决定使用该平台的搜索功能扫描 Hugging Face 和 GitHub 上的代码存储库,以寻找暴露的 API 令牌。
研究人员在使用正则表达式(regex)搜索代码时遇到了障碍,最初的搜索在 GitHub 上只获得了前 100 个结果。然后,研究人员搜索 HuggingFace API 令牌正则表达式,以查找用户和 org_api 令牌,返回了数千个结果。然而,他们只能读取其中的 100 个结果。
在 Hugging Face 上扫描暴露的 API 令牌来得更困难,因为该平台不允许使用正则表达式进行搜索,于是研究人员改而通过子字元串搜索 API 令牌。
在扫描这两个平台上的代码存储库之后,研究人员使用了 "whoami"HuggingFace API 调用,结果不仅提供了单个令牌的有效性,还提供了用户的姓名、电子邮件、组织以及令牌及其他信息的权限和特权。
研究人员发现了另一个与 Hugging Face 的 org api 令牌有关的问题,该公司之前已经弃用了这些令牌,还通过检查登录函数中的令牌类型来阻止它们在 Python 库中的使用。然而,通过对库中的登录函数进行小幅改动,org_api 令牌的读取功能依然适用。
尽管令牌已被弃用,但研究人员发现他们可以使用暴露的 org_api 令牌从代码存储库下载私有模型。举例来说,研究人员获得了读取和下载来自微软的私有大语言模型的能力。
鉴于这些暴露,Lanyado 建议组织在对生成式 AI 项目和大语言模型进行代码审查时采用令牌分类,并避免任何硬编码令牌。在快速发展的数字环境中,早期检测对于防止潜在危害、保护大语言模型具有重要意义。