应对AI大模型新的安全挑战，OpenAI、蚂蚁集团联合出招

今天小编分享的互联网经验：应对AI大模型新的安全挑战，OpenAI、蚂蚁集团联合出招，欢迎阅读。

去年年初，ChatGPT 引爆了新一轮 AI 浪潮。在人们期待大模型能够为各行各业带来颠覆性变革的同时，也不得不承认，大模型创造了新机遇，但也带来了新的安全风险。

比如，基于大模型的高效内容生成特质，黑客的攻击成本和门槛变低，发动更加密集的攻击变得容易，助长黑客行为；基于生成式 AI 在多种语言和信息整合的优势，伪造一个极其逼真的骗局成本和时间降低，网络钓鱼行为规模范围、实施效率大幅度提升；还有老生常谈的数据泄漏问题，将企业的安全、隐私等置于极大的威胁中。

难以想象，如果不对大模型的安全问题加以防御，任由其野蛮生长，将会带来多么严重的后果。

如今，经过去年持续一年多的 " 百模大战 " 后，大模型进入落地应用阶段，开始走进千行百业，与各种各样的场景进行深度融合。基于此，面对持续发展的大模型所带来的安全威胁与挑战，如何采取积极措施，在已有的、传统的安全工具、策略体系下，进行技术和方法的革新，打造安全可信的大模型，成为全球范围内各大大模型厂商、从业者关注的焦点所在。

WDTA 就大模型安全发布国际标准，AI 安全评估测试进入新基准

4 月 15 日 -19 日，第 27 届联合国科技大会在瑞士日内瓦召开。其中，4 月 16 日，在以 " 塑造 AI 的未来 " 为主题的 AI 边会上，世界数字技术院（WDTA）发布了一系列突破性成果，包括《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。

WDTA 发布大模型安全国际标准，OpenAI、蚂蚁集团、科大讯飞等参编

据雷峰网了解，世界数字技术院（WDTA）是一家在日内瓦注册的国际非政府组织，遵从联合国指导框架，致力于在全球范围内推进数字技术，促进国际合作。

其中 AI STR（安全、可信、负责任）计划是 WDTA 的核心倡议，旨在确保人工智能系统的安全性、可信性和责任性。蚂蚁集团、华为、科大讯飞、国际数据空间协会 ( IDSA ) 、弗劳恩霍夫研究所、中国电子等均为其成员部門。

而此次会议上发布的两项国际标准——《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》，是国际组织首次就大模型安全领網域发布的国际标准，代表着全球人工智能安全评估和测试进入新的基准。

据悉，这两项国际标准是由 OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等数十家部門的多名专家学者共同编制而成。

据了解，《生成式人工智能应用安全测试标准》（以下简称《标准》）由 WDTA 作为牵头部門，该《标准》概述了一个综合框架，用于测试或验证下游人工智能应用程式的安全性，特别是那些使用大语言模型（LLM）构建的应用程式。

整体来看，该《标准》定义了人工智能应用程式架构每一层的测试和验证范围，包括基础模型选择、嵌入和矢量数据库、RAG 或检索增强生成、APP 运行时安全等，确保人工智能应用程式各个方面都经过严格的安全性和合规性评估，保障其在整个生命周期中免受各种威胁和漏洞的侵害。

而《大语言模型安全测试方法》（以下简称《测试方法》）由蚂蚁集团牵头编制。

相较于《标准》，《测试方法》则为大模型本身的安全性评估提供了一套全面、严谨且实操性强的结构性方案，提出了针对大语言模型的安全风险分类、攻击分类和分级方法以及测试方法，并率先给出了四类不同攻击强度的攻击手法分类标准，提供了严格的评估指标和测试程式等，可有效解决大语言模型固有的复杂性，测试其抵御敌对攻击的能力，使开发人员和组织能够识别和缓解潜在漏洞，并最终提高使用大语言模型构建的人工智能系统的安全性和可靠性。

聚焦大模型安全风险，筑牢防线刻不容缓

会上，WDTA 人工智能安全可信负责任工作组组长黄连金表示，这两项标准汇集了全球 AI 安全领網域的专家智慧，填补了大语言模型和生成式 AI 应用方面安全测试领網域的空白，为业界提供了统一的测试框架和明确的测试方法，有助于提高 AI 系统安全性，促进 AI 技术负责任发展，增强公众信任。

正如黄连金所言，这两项标准的制定集齐了国内外多位专家学者的智慧，而像 OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等大模型领網域厂商，以及 360、奇安信、深信服等安全厂商，也都在打造安全可信的大模型的道路上进行了长期的探索。

比如，作为 ChatGPT、GPT-4 等最前沿大模型技术背后的公司，OpenAI 在去年 7 月宣布成立 Superalignment 团队，由联合创始人 Ilya Sutskever 和 Jan Leike 共同领导，目的是创建一个接近人类水平的、负责模型对齐的 "AI 研究员 "，即用 AI 来监督 AI。

作为推动大模型快速发展背后的算力提供者，英伟达在去年 4 月推出了一款名为 NeMo Guardrails 的軟體，该軟體能够为 AI 模型設定安全 " 护栏 "，避免输出一些错误的事实、涉及有害的话题或导致安全风险，以解决大模型存在的 " 幻觉 " 难题。

今年 3 月，国内安全厂商 360 发布 360 安全大模型 3.0 版本，奇安信、深信服等安全厂商也都相继发布 AI+ 安全产品，在探索安全大模型的道路上进行了深度探索。

而作为此次《大语言模型安全测试方法》牵头编制方的蚂蚁集团，更是在安全领網域有着丰富的经验。

众所周知，蚂蚁集团最初是从支付宝这一小工具诞生，发展至今，而在涉及人们 " 钱袋子 " 的问题上，安全和可靠的重要性不言而喻，因此，从 2015 年起，蚂蚁集团就开始积极投入可信 AI 技术研究，目前已建立了大模型综合安全治理体系。

据雷峰网了解，去年 9 月，蚂蚁集团自研了业界首个大模型安全一体化解决方案 " 蚁天鉴 "，包含大模型安全检测平台 " 蚁鉴 "、大模型风险防御平台 " 天鉴 " 两大产品，可用于 AIGC 安全性和真实性评测、大模型智能化风控、AI 鲁棒和可解释性检测等。

此次发布的《测评方法》，便是蚂蚁集团基于 " 蚁天鉴 "AI 安全检测体系的应用实践，与全球生态伙伴交流编制。

此外，蚂蚁集团在公司内成立了科技伦理委员会和专门团队来评估和管理生成式 AI 的风险，公司所有 AI 产品均需通过科技伦理评测机制，确保 AI 安全可信。

不仅如此，去年 2 月，蚂蚁集团还在设立公司内部科技伦理委员会的基础上，成立科技伦理顾问委员会，定期邀请 AI 领網域的专家学者围绕着科技伦理治理体系建设、生成式 AI 治理、大模型风险管理等议题进行深入讨论，力求打造 " 安全、合规、可控、可靠 " 的大模型。

蚂蚁集团王维强作为标准参与部門代表，在会上发言

正如蚂蚁集团机器智能部总经理、蚂蚁安全实验室首席科学家王维强在会上所言，" 生成式 AI 将释放巨大的生产力，但也要对它带来的新风险高度警惕。"

大型科技公司应在促进生成式 AI 安全和负责任的发展中发挥关键作用，利用其资源、专业知识和影响力推动最佳实践，构建一个优先考虑安全、隐私、可靠和伦理优先的生态系统。例如，通过制定行业标准与指南，为开发和部署生成式 AI 系统的开发者和机构提供清晰指导；投入研发并开放保障生成式 AI 安全的工具，形成产业共治。

如今，当大模型开始走进各行各业，在成千上个场景落地的时候，打造安全、可信、可靠的大模型已经不是某一家大模型厂商需要解决的问题，而应该是产业各界携手，群策群力，一起面对、迎接 AI 新时代的挑战，创造更美好的未来。