Chat-GPT就是“参考答案”，连字节跳动也在“抄作业”？

今天小编分享的财经经验：Chat-GPT就是“参考答案”，连字节跳动也在“抄作业”？，欢迎阅读。

图片来源 @视觉中国

文 | 元宇宙新声，编辑｜孙浩南

众所周知，在 AI 大模型领網域，OpenAI 研发出 Chat-GPT 这件事就像上学时老师布置了一个特别困难的题目，就在大家都还在整理解题思路或是百思不得其解的时候，班级里的学霸已经第一个写完了，于是大部分人则更倾向于与学霸交流思路，抑或是直接抄作业。

近期的种种风波似乎也证实了，许多看似复杂的事物其本质是一样的。前有马斯克的 Grok AI 因为数据集污染被怀疑抄袭甚至是套壳 Chat-GPT ，现有字节跳动涉嫌违反服务条款被 OpenAI 封号。

字节跳动，陷入大模型舆论风波

近日，外媒 The Verge 报道称，字节跳动利用微软的 OpenAI API 账户生成数据来训练自己的人工智能模型，这种行为实际上已经违反了微软和 OpenAI 的使用条款。在此消息被披露不久，The Verge 进一步称 OpenAI 已经暂停了字节跳动的账户。

那么字节跳动具体是违反了什么条款呢 ? 其实在 OpenAI 的服务条款中有一项明确的规定，那就是 OpenAI 提供的模型能力，不允许用来被 " 开发任何与之产品和服务形成竞争的 AI 模型 "。

根据 The Verge 的说法，证据是来自字节跳动的一份内部檔案——海外版飞书 Lark 的聊天记录。

这份檔案表明，字节跳动在代号为 " 种子计划 " ( Project Seed ) 基础大语言模型项目中，几乎是在每个开发阶段都依赖 OpenAI 的 API 来进行开发，包括训练和评估模型。

" 种子计划 " 大约在一年前启动，目前主要研发两个产品，一个是在国内已经上线的豆包 ; 另一个是针对商业用户的聊天机器人平台，目前正在开发中。

参与 " 种子计划 " 的员工是深知过度依赖 OpenAI API 的后果，于是他们就开始讨论如何通过 " 数据脱敏 " 来粉饰证据。以至于经常会出现员工达到 OpenAI API 的最大访问上限的情况。

The Verge 根据内部檔案表示，字节跳动大约是在几个月前下达了 " 模型开发的任何阶段停止使用 GPT 生成的文本 " 的命令。

不过也正是在这个时候，字节跳动发布了自家大语言模型豆包。豆包 AI 官微介绍，豆包 AI 可以提供聊天机器人、写作助手以及英语学习助手等功能，它可以回答各种问题并进行对话，帮助人们获取信息，支持网页 Web 平台，iOS 以及安卓平台。豆包能提供自然语言处理、知识理解、对话、信息检索、情感分析、机器学习等多种类型的帮助。

但是，字节跳动继续以违反 OpenAI 和微软服务条款的方式使用 API，包括评估豆包背后模型的性能。一位对字节跳动内部情况有第一手了解的人指出，" 他们说他们想确保一切都是合法的，但他们实际上只是不想被抓住把柄 "。

三方接连表态，着急的只有字节

字节跳动

在 The Verge 发出这篇报道之后，字节跳动发言人 Jodi Seth 做出了如下回应：GPT 生成的数据在 " 种子计划 " 的早期开发中用于注释模型，并且在今年年中左右的时候已从字节跳动的训练数据中删除。字节跳动得到了微软的授权，可以使用 GPT API。我们在非中国市场利用 GPT 支持我们的产品 ; 但在中国市场，则是使用我们自研的模型来支持豆包。

昨日下午，字节跳动相关负责人再度回应称，公司在使用 OpenAI 相关服务时，强调要遵守其使用条款。我们也正与 OpenAI 联系沟通，以澄清外部报道可能引发的误解。

字节跳动使用 OpenAI 服务相关情况的介绍：

1、今年年初，当技术团队刚开始进行大模型的初期探索时，有部分工程师将 GPT 的 API 服务应用于较小模型的实验性项目研究中。该模型仅为测试，没有计划上线，也从未对外使用。在 4 月公司引入 GPT API 调用规范检查后，这种做法已经停止。

2、早在今年 4 月，字节大模型团队已经提出了明确的内部要求，不得将 GPT 模型生成的数据添加到字节大模型的训练数据集，并培训工程师团队在使用 GPT 时遵守服务条款。

3、9 月，公司内部又进行了一轮检查，采取措施进一步保证对 GPT 的 API 调用符合规范要求。例如分批次抽样模型训练数据与 GPT 的相似度，避免数据标注人员私自使用 GPT。

4、未来几天里，我们会再次全面检查，以确保严格遵守相关服务的使用条款。

OpenAI

OpenAI 发言人尼克・菲利克斯 ( Niko Felix ) 发表声明，确认字节跳动的账户已被暂停。" 所有 API 客户必须遵守我们的使用政策，以确保我们的技术被用于好的一面。虽然字节跳动很少使用我们的 API，但我们在进一步调查期间已暂停了他们的帐户。如果我们发现他们的使用不符合公司政策，我们将要求他们做出必要的改变或终止他们的账户。" 菲利克斯表示。

微软

微软发言人弗兰克・肖 ( Frank Shaw ) 在一份声明中表示："Azure OpenAI 服务等微软 AI 解决方案属于我们有限访问框架的一部分，这意味着所有客户都必须申请并获得微软的批准才能访问。我们还制定了标准并提供资源，帮助我们的客户负责任地使用这些技术，并遵守我们的服务条款。我们还制定了发现滥用行为的流程，并在企业违反我们的行为准则时停止他们的访问。"

从此次事件中的三方声明中可以看出，OpenAI 比较保守，只是暂停了字节跳动的账号，并表示会进行调查后再决定是否需要采取进一步措施。微软则是有一种 " 事不关己高高挂起 " 的态度，仿佛再说 " 我只是中间人，我们有自己的规定，如果有违反的行为我们会禁止的 "。字节跳动则显得更着急一些，毕竟 " 火 " 已经烧在身上了。先是澄清解释，再是立刻联系 OpenAI 想要迅速对此次事件 " 灭火 "。

字节跳动的 AI 布局

公开资料显示，早在 2016 年，字节跳动就成立了 AI 实验室，聚焦于自然语言处理、机器学习、数据挖掘等方面的研究。抖音、今日头条等字节跳动旗下产品中也频频加入 AIGC ( 生成式人工智能 ) 功能，持续吸引流量。

2023 年，字节跳动在 AI 领網域的动作明显加快。6 月，字节跳动旗下火山引擎发布大模型服务平台 " 火山方舟 "，面向企业提供模型精调、评测、推理等全方位的平台服务。

8 月，字节跳动自研的通用大模型 " 云雀 " 在首批通过《生成式人工智能服务管理暂行办法》大模型名单中露出。

8 月 17 日，字节跳动公测基于云雀大模型开发的 AI 聊天机器人 " 豆包 "，面向 C 端市场发力 AI 应用。

近期，在收缩游戏和 XR 业务的同时，字节跳动成立了一个新的 AI 部门 Flow。相关招聘信息显示，Flow 是字节跳动旗下 AI 创新业务团队，目前已在国内和海外分别上线了 " 豆包 " 和 "Cici" 两款产品，还有多个 AI 相关创新产品在孵化中。

同时，今年字节跳动向英伟达订购超过 10 亿美元的 GPU，仅它一家的订单就达到了英伟达去年在中国销售商用 GPU 收入的总和。除此之外，在人才招聘上，有关 AIGC 新发岗位量 TOP10 的企业中，字节跳动也是位列第一，占所有 AIGC 新发岗位的 3.24%。

种种行为足见字节对于 AI 和大模型的重视之高，回到此次事件本身，如此重视的字节会为了 " 弯道超车 " 而冒如此大的风险吗 ?

元宇宙新声有话说

ChatGPT 的横空出世后，字节跟很多国内大厂一样，在努力跟进 AI 的节奏。但显然字节要更加落后一点，豆包上线后很多人使用，但效果并没有达到一流的水准。如果说利用 Chat-GPT 训练出来的 AI 只是这种效果的话，似乎不太说的过去，而如果没有用 Chat-GPT 来训练豆包的话，那么达到这种效果也算是预料之中。

在此前马斯克的 Grok AI 涉嫌抄袭 Chat-GPT 时，人工智能研究员西蒙 · 威利森 ( Simon Willison ) 在接受 Ars Technica 采访时就表示：" 许多大模型已经在使用 OpenAI API 生成的数据集上进行了微调，或者从 ChatGPT 本身中抓取。"

但显然这些操作都是在合理范围内进行的，字节或许也是如此，至于字节是否过于 " 急功近利 " 而选择越过合理范围进行使用，想必作为一家庞大的互联网公司，应该还不至于进行如此 " 因小失大 " 的抄袭行为。