字節跳動賬戶被封禁！用Open AI訓練自家AI？背後是90萬億生意

今天小編分享的科技經驗：字節跳動賬戶被封禁！用Open AI訓練自家AI？背後是90萬億生意，歡迎閱讀。

全文共 2065 字，閱讀大約需要 7 分鍾

字節跳動：正與 OpenAI 聯系溝通。

記者丨楊月涵

一向低調的字節跳動大模型走上了風口浪尖。近日，有媒體報道稱，字節跳動在使用 OpenAI 技術開發自己的大語言模型，違反了 OpenAI 服務條款，因此暫停了字節跳動的賬戶。

對此，字節跳動回應稱，GPT 的 API 服務僅在初期探索時用于較小規模的實驗性項目。字節跳動與 OpenAI 的風波背後，不難看出 " 百模大戰 " 的激烈競争仍暗流湧動。

凍結

" 字節跳動使用 OpenAI 的技術，用以打造自己的大模型。"12 月 16 日，科技媒體 TheVerge 發布了這樣一篇報道。随後，OpenAI 發言人尼克 · 菲利克斯确認，字節跳動賬戶已被暫停。

12 月 17 日，字節跳動回應北京商報記者稱，公司在使用 OpenAI 相關服務時，強調要遵守其使用條款。" 我們也正與 OpenAI 聯系溝通，以澄清外部報道可能引發的誤解 "。

服務條款是這場風波的核心。作為商業化的重要一步，今年 3 月，OpenAI 開放 API（應用程式編程接口），允許第三方開發者通過 API 将 ChatGPT 集成至他們的應用程式和服務中。但 OpenAI 的服務條款中曾明确提及，OpenAI 提供的模型能力，不允許用來被 " 開發任何與其產品和服務形成競争的 AI 模型 "。

根據字節跳動的回應，今年初，技術團隊剛開始進行大模型的初期探索時，有部分工程師将 GPT 的 API 服務應用于較小模型的實驗性項目研究中。該模型僅為測試，沒有計劃上線，也從未對外使用。在 4 月公司引入 GPT API 調用規範檢查後，這種做法已經停止。

據介紹，早在今年 4 月，字節大模型團隊已經提出了明确的内部要求，不得将 GPT 模型生成的數據添加到字節大模型的訓練數據集，并培訓工程師團隊在使用 GPT 時遵守服務條款。

9 月，字節跳動内部又進行了一輪檢查，采取措施進一步保證對 GPT 的 API 調用符合規範要求。例如分批次抽樣檢測模型訓練數據與 GPT 的相似度，避免數據标注人員私自使用 GPT。

" 未來幾天裡，我們會再次全面檢查，以确保嚴格遵守相關服務的使用條款。" 字節跳動如此說道。但對于賬号的恢復時間計劃，截至記者發稿，暫未收到回復。

接口

一個是風靡全球的互聯網新貴，一個是新一輪人工智能大潮的領頭羊，雙方本就自帶流量，以這種形式產生交集，自然引發諸多讨論。

" 在案例中，API 可狹義地理解為一種商業用途的接口服務 "，在接受北京商報記者采訪時，無界 AI 聯合創始人馬千裡解釋稱，一款應用提供服務可以分為兩種方式，一種是通過應用自身（比如 App）完成，另一種就是用 API 提供接口服務，從而将來自應用的要求接入到後端，可實現批量操作，實現商業化落地。

馬千裡補充稱，包括計價模式、使用權限等在内，API 很多服務都是和傳統的 C 端服務不一樣的。正常來講，大模型企業很支持以 API 的形式完成商業化，" 但若要用來訓練自己的競争對手的模型，那肯定就不願意了 "。

憑借着 Llama 2 的成功，Meta 衝出了 OpenAI 的閉源重圍，扛起了大模型開源的大旗。饒是如此，Meta 也在其軟體協定中做了保留，比如強調不得将 Llama 用于改進任何其他大型語言模型，但 Llama 2 或其衍生作品除外。

此前，創新工廠董事長兼 CEO 李開復旗下的 " 零一萬物 " 大模型也被質疑套殼 Llama。不久前，零一萬物再度發聲表示，公司内部經過幾個周的國際國内法律研判，已經确認完全不涉及套殼、抄襲，并給出了進一步的澄清。

馬千裡解釋稱，" 套殼 " 并不是法律上的禁止行為，很多時候只要符合供應商的協定，後者其實是鼓勵套殼以實現商業化的。這一行為之所以會被诟病，可能是有些企業宣傳存在偏差。

北京市社會科學院副研究員王鵬也對北京商報記者提到，自從 OpenAI 的技術路徑得到廣泛應用，國内、國外的一些廠商以及相關企業都在進行扎實的跟進，也有部分企業選擇站在巨人的肩膀上進行二次開發。

" 但大模型的訓練确實需要大量資金和資源的投入，在這個過程中也可能存在着魚龍混雜的情況，有些企業聲稱自己在做開發，本質是套殼。" 王鵬稱。

追趕

以服務條款為中心，OpenAI 和字節跳動的矛盾背後，是全球大模型的激烈競賽。截至今年 10 月，我國 10 億參數規模以上的大模型廠商及高校院所共計 254 家，分布于 20 餘個省市 / 地區。

工業和信息化部賽迪研究院近日的數據顯示，今年，我國生成式人工智能市場規模有望突破 10 萬億元。專家預測，2035 年生成式人工智能有望為全球貢獻近 90 萬億元的經濟價值，其中我國将突破 30 萬億元，占比超過四成。

今年 6 月的世界互聯網大會數字文明尼山對話中，百度創始人、董事長兼首席執行官李彥宏說，無論從技術趨勢，還是產業應用來看，大模型都絕不是昙花一現的風口，而是影響人類發展的重大技術變革，是拉動全球經濟增長的引擎，是絕對不能錯過的重大戰略機遇。

在大模型的激烈競争中，字節跳動的步伐并不快。公開資料顯示，今年 6 月，字節跳動火山引擎發布大模型服務平台火山方舟；8 月，字節跳動自研的通用大模型 " 雲雀 " 通過《生成式人工智能服務管理暫行辦法》。同月，字節跳動基于雲雀大模型的 AI 對話產品 " 豆包 " 正式開啟對外測試。

談及大模型的進展，字節跳動相關負責人向北京商報記者表示，雲雀大模型目前還處于初級階段，與國外公司還有比較大的差距。

字節跳動在加速追趕。11 月末，節跳動成立新 AI 部門 Flow。公開報道顯示，Flow 是字節跳動旗下 AI 創新業務團隊，目前已在國内和海外分别上線了豆包和 Cici 兩款產品，還有多個 AI 相關創新產品在孵化中。業内普遍認為，這也許是字節跳動在收縮遊戲業務的同時，加碼 AI 應用開發的信号。

" 和其他大廠相比，字節跳動可能會在多模态領網域占有更多的優勢 "。馬千裡認為，在語言模型方面，與以搜索引擎起家的企業相比，字節跳動掌握的數據資源并不具有明顯優勢。字節跳動的數據大多是多模态數據，團隊也相對頂尖，或許可以在這方面打出差異化。

王鵬也提到，字節跳動做大模型的優勢就是平台大、資源多、本身應用場景多元，能夠形成較好的商業模式，而且字節跳動的日活高、内容產出多、數據量大，也有利于其進行大模型的開發。

編輯丨楊博

圖片丨北京商報、壹圖網、微博 @李開復截圖