今天小編分享的科技經驗:字節跳動賬戶被封禁!用Open AI訓練自家AI?背後是90萬億生意,歡迎閱讀。
全文共 2065 字,閱讀大約需要 7 分鍾
字節跳動:正與 OpenAI 聯系溝通。
記者丨楊月涵
一向低調的字節跳動大模型走上了風口浪尖。近日,有媒體報道稱,字節跳動在使用 OpenAI 技術開發自己的大語言模型,違反了 OpenAI 服務條款,因此暫停了字節跳動的賬戶。
對此,字節跳動回應稱,GPT 的 API 服務僅在初期探索時用于較小規模的實驗性項目。字節跳動與 OpenAI 的風波背後,不難看出 " 百模大戰 " 的激烈競争仍暗流湧動。
凍結
" 字節跳動使用 OpenAI 的技術,用以打造自己的大模型。"12 月 16 日,科技媒體 TheVerge 發布了這樣一篇報道。随後,OpenAI 發言人尼克 · 菲利克斯确認,字節跳動賬戶已被暫停。
12 月 17 日,字節跳動回應北京商報記者稱,公司在使用 OpenAI 相關服務時,強調要遵守其使用條款。" 我們也正與 OpenAI 聯系溝通,以澄清外部報道可能引發的誤解 "。
服務條款是這場風波的核心。作為商業化的重要一步,今年 3 月,OpenAI 開放 API(應用程式編程接口),允許第三方開發者通過 API 将 ChatGPT 集成至他們的應用程式和服務中。但 OpenAI 的服務條款中曾明确提及,OpenAI 提供的模型能力,不允許用來被 " 開發任何與其產品和服務形成競争的 AI 模型 "。
根據字節跳動的回應,今年初,技術團隊剛開始進行大模型的初期探索時,有部分工程師将 GPT 的 API 服務應用于較小模型的實驗性項目研究中。該模型僅為測試,沒有計劃上線,也從未對外使用。在 4 月公司引入 GPT API 調用規範檢查後,這種做法已經停止。
據介紹,早在今年 4 月,字節大模型團隊已經提出了明确的内部要求,不得将 GPT 模型生成的數據添加到字節大模型的訓練數據集,并培訓工程師團隊在使用 GPT 時遵守服務條款。
9 月,字節跳動内部又進行了一輪檢查,采取措施進一步保證對 GPT 的 API 調用符合規範要求。例如分批次抽樣檢測模型訓練數據與 GPT 的相似度,避免數據标注人員私自使用 GPT。
" 未來幾天裡,我們會再次全面檢查,以确保嚴格遵守相關服務的使用條款。" 字節跳動如此說道。但對于賬号的恢復時間計劃,截至記者發稿,暫未收到回復。
接口
一個是風靡全球的互聯網新貴,一個是新一輪人工智能大潮的領頭羊,雙方本就自帶流量,以這種形式產生交集,自然引發諸多讨論。
" 在案例中,API 可狹義地理解為一種商業用途的接口服務 ",在接受北京商報記者采訪時,無界 AI 聯合創始人馬千裡解釋稱,一款應用提供服務可以分為兩種方式,一種是通過應用自身(比如 App)完成,另一種就是用 API 提供接口服務,從而将來自應用的要求接入到後端,可實現批量操作,實現商業化落地。
馬千裡補充稱,包括計價模式、使用權限等在内,API 很多服務都是和傳統的 C 端服務不一樣的。正常來講,大模型企業很支持以 API 的形式完成商業化," 但若要用來訓練自己的競争對手的模型,那肯定就不願意了 "。
憑借着 Llama 2 的成功,Meta 衝出了 OpenAI 的閉源重圍,扛起了大模型開源的大旗。饒是如此,Meta 也在其軟體協定中做了保留,比如強調不得将 Llama 用于改進任何其他大型語言模型,但 Llama 2 或其衍生作品除外。
此前,創新工廠董事長兼 CEO 李開復旗下的 " 零一萬物 " 大模型也被質疑套殼 Llama。不久前,零一萬物再度發聲表示,公司内部經過幾個周的國際國内法律研判,已經确認完全不涉及套殼、抄襲,并給出了進一步的澄清。
馬千裡解釋稱," 套殼 " 并不是法律上的禁止行為,很多時候只要符合供應商的協定,後者其實是鼓勵套殼以實現商業化的。這一行為之所以會被诟病,可能是有些企業宣傳存在偏差。
北京市社會科學院副研究員王鵬也對北京商報記者提到,自從 OpenAI 的技術路徑得到廣泛應用,國内、國外的一些廠商以及相關企業都在進行扎實的跟進,也有部分企業選擇站在巨人的肩膀上進行二次開發。
" 但大模型的訓練确實需要大量資金和資源的投入,在這個過程中也可能存在着魚龍混雜的情況,有些企業聲稱自己在做開發,本質是套殼。" 王鵬稱。
追趕
以服務條款為中心,OpenAI 和字節跳動的矛盾背後,是全球大模型的激烈競賽。截至今年 10 月,我國 10 億參數規模以上的大模型廠商及高校院所共計 254 家,分布于 20 餘個省市 / 地區。
工業和信息化部賽迪研究院近日的數據顯示,今年,我國生成式人工智能市場規模有望突破 10 萬億元。專家預測,2035 年生成式人工智能有望為全球貢獻近 90 萬億元的經濟價值,其中我國将突破 30 萬億元,占比超過四成。
今年 6 月的世界互聯網大會數字文明尼山對話中,百度創始人、董事長兼首席執行官李彥宏說,無論從技術趨勢,還是產業應用來看,大模型都絕不是昙花一現的風口,而是影響人類發展的重大技術變革,是拉動全球經濟增長的引擎,是絕對不能錯過的重大戰略機遇。
在大模型的激烈競争中,字節跳動的步伐并不快。公開資料顯示,今年 6 月,字節跳動火山引擎發布大模型服務平台火山方舟;8 月,字節跳動自研的通用大模型 " 雲雀 " 通過《生成式人工智能服務管理暫行辦法》。同月,字節跳動基于雲雀大模型的 AI 對話產品 " 豆包 " 正式開啟對外測試。
談及大模型的進展,字節跳動相關負責人向北京商報記者表示,雲雀大模型目前還處于初級階段,與國外公司還有比較大的差距。
字節跳動在加速追趕。11 月末,節跳動成立新 AI 部門 Flow。公開報道顯示,Flow 是字節跳動旗下 AI 創新業務團隊,目前已在國内和海外分别上線了豆包和 Cici 兩款產品,還有多個 AI 相關創新產品在孵化中。業内普遍認為,這也許是字節跳動在收縮遊戲業務的同時,加碼 AI 應用開發的信号。
" 和其他大廠相比,字節跳動可能會在多模态領網域占有更多的優勢 "。馬千裡認為,在語言模型方面,與以搜索引擎起家的企業相比,字節跳動掌握的數據資源并不具有明顯優勢。字節跳動的數據大多是多模态數據,團隊也相對頂尖,或許可以在這方面打出差異化。
王鵬也提到,字節跳動做大模型的優勢就是平台大、資源多、本身應用場景多元,能夠形成較好的商業模式,而且字節跳動的日活高、内容產出多、數據量大,也有利于其進行大模型的開發。
編輯丨楊博
圖片丨北京商報、壹圖網、微博 @李開復 截圖