今天小编分享的互联网经验:微软AI 38TB数据泄露,欢迎阅读。
微软 AI 研究部门在发布开源模型时意外泄露 38 TB 训练数据。
事件分析
近日,云安全公司 Wiz 研究人员发布了关于微软人工智能研究部门员工意外泄露 38 TB 数据的研究报告。报告称微软员工在发布开源训练数据时,意外分享了一个包含有泄露的信息的错误配置的 Azure Blob 存储桶(storage bucket)的 URL,其中包含 38 TB 的人工智能训练数据,这些数据本身是用作迁移学习训练的。
数据泄露的原因是使用了权限过大的 Shared Access Signature ( SAS ) token。SAS token 可以用于 Storage 的访问权限設定,可以实现对分享的檔案的完全控制。SAS token 正确使用可以对存储资源提供一种安全的授权访问方式。其中包括对客户端数据访问的精准控制,指定可以互動的资源,定义与资源相关的权限,确定 SAS token 的有效时间。
SAS token 很难监控,因为微软并未在 Azure 中提供一种中心化的管理方式。由于缺乏监控和管理,SAS token 也会带来安全风险。因此需要对其的使用需要尽可能地限制。此外,token 还可以被配置为永久有效,因此使用账户 SAS token 进行外部分享是不安全的。
暴露的数据包括微软员工的个人信息备份,包括微软服务的密码、安全密钥、来自 359 名微软员工的超过 3 万条 Teams 消息。
9 月 18 日,微软称没有客户数据暴露,该安全事件也不影响其他内部服务。
时间轴
该安全事件的时间轴如下:
2020 年 7 月 20 日,SAS token 首次提交到 GitHub,过期时间设定为 2021 年 10 月 5 日;
2021 年 10 月 6 日,SAS token 过期更新为 2051 年 10 月 6 日;
2023 年 6 月 22 日,wiz 研究人员将该问题报告给微软;
2023 年 6 月 24 日,SAS token 被微软設定为无效状态;
2023 年 7 月 7 日,GitHub 上的 SAS token 被替换;
2023 年 8 月 16 日,微软完成内部调查;
2023 年 9 月 18 日,wiz 公开研究报告内容。
完整技术报告参见:https://www.wiz.io/blog/38-terabytes-of-private-data-accidentally-exposed-by-microsoft-ai-researchers