今天小編分享的财經經驗:OpenAI掀AI生圖熱潮:吉卜力動漫風陷版權争議,中文渲染遇瓶頸,歡迎閱讀。
圖片來源:視覺中國
藍鲸新聞 3 月 29 日訊(記者 朱俊熹)夢核風格的小貓、" 打工人 " 版的 Hello Kitty、一鍵 Jellycat…… 你對這些 AI 生成的圖片肯定不陌生,它們曾火遍全網,但現在都已經過時了。這幾天占據海内外各大社交媒體首頁的,是另一類新的 AI 生圖風格:吉卜力動漫風。
本周早些時候,OpenAI 對 ChatGPT 的影像生成功能進行了更新,用戶可以通過其多模态大模型 GPT-4o 來生成和修改影像。在 3 月 26 日的直播中,OpenAI CEO Sam Altman 和團隊展示了如何在 ChatGPT 中把一張自拍照轉換為動漫風格的圖片。觀看者們很快發現,其畫風與日本吉卜力動畫工作室極為相似,并開始在互聯網上自發體驗、傳播。一位用戶甚至将這稱作 OpenAI 模型的 " 第一次病毒式傳播 "。
圖片來源:Sam Altman X
因湧入的體驗者過多,OpenAI 決定推遲向免費用戶開放這一影像生成工具的時間。Sam Altman 在社交平台 X 上發帖稱," 我們的 GPU 快要炸了 "。他不僅将頭像換成了吉卜力風格編輯後的個人照,還自嘲道," 為了創造超級智能努力了十年,前七年半幾乎沒人關心,之後兩年半大家因為各種事讨厭我。有一天醒來收到了成百上千條信息:‘看,我把你做成了一個吉卜力風格的帥小夥’。"
圖片來源:Sam Altman X
AI 生成 " 風格 " 涉侵權嗎?
然而當 AI 生成的 " 吉卜力 " 圖片迅速充斥互聯網,一個擔憂也随之而起:這是否會涉及到對吉卜力工作室動漫作品版權的侵犯?更引人關注的是,吉卜力工作室的聯合創辦人、動畫師宮崎駿早在 2016 年就表達過對 AI 生成内容的不滿。他在看到一段由 AI 生成的視頻片段時直言," 我感到極度惡心,絕不會希望把這種技術融入我的作品中。"
OpenAI 發言人則表示,ChatGPT 拒絕 " 以個别活躍藝術家的風格進行生成 ",但允許生成 " 更廣泛的工作室風格 "。
對于其中可能牽涉的版權争議,江蘇劍橋頤華律師事務所律師、專利代理師楊衛薪告訴藍鲸新聞,一般情況下 " 風格 " 是沒有著作權的,因為它只保護具體的表達,而不保護思想。" 但是如果生成的内容和吉卜力裡面的角色或者場景有較高的一致性,那可能就會構成侵權。"
楊衛薪律師補充稱,從 GPT-4o 在生成吉卜力風格影像上的表現來看,模型在訓練時必然使用到了吉卜力工作室的作品素材," 不然大模型是沒法理解這種圖片風格并進行相應的生成。" 如果按照中國的著作權法來看,AI 抓取素材用于訓練并進行内容生成,是一種侵犯復制權、信息網絡傳播權的行為,但目前學界和業界都想将這種行為往合理使用的方向推進。
一句話生圖成現實
使用 AI 生成圖片并不是新鮮事,OpenAI 此次在功能上的更新能夠引起現象級傳播,一大原因還是在于其生成圖片的高質量。
據 OpenAI 介紹,GPT-4o 模型具備較強的文本渲染能力。藍鲸新聞記者實測發現,4o 不僅可以還原原圖的文字内容,也支持通過自然語言的描述,來調整文字的位置或顏色等細節。但該模型對英文字元的渲染準确度要高于中文字元,在實測過程中會出現将簡體字編輯成繁體字,或生成的中文字元出錯的情況。OpenAI 也承認,4o 模型在渲染非拉丁語言時可能會遇到困難。
圖片來源:藍鲸新聞
此外,GPT-4o 在影像一致性方面也取得了較大進展。即使經過多輪對話的調整,其生成的影像在風格、主體外觀等方面也能保持一致。這能夠極大地提升 AI 生圖在遊戲設計、廣告制作等領網域的落地可能。
圖片來源:藍鲸新聞
據 OpenAI 介紹,此前其推出的 AI 生圖模型 Dall-E 是擴散模型,而 4o 影像生成是一個自回歸模型。4o 系統會按照從左到右、從上到下的順序逐步生成影像,類似于文本的書寫方式,而不是像擴散模型那樣,一次性生成整個影像。
AI 創企深勢科技的 AI 算法負責人柯國霖在社交媒體上分析稱,這體現了用自回歸模型來統一多模态這一方案的優勢。Dall-E 是在隐空間中将影像與語言對齊,在生成影像時,模型不斷在文本和影像之間進行相互轉換。但這一過程必然是有損的,影像的引導能力很弱,生成的随機性大、難以精細控制。
柯國霖表示,像 GPT-4o 這類 Omni Model(全能模型),能夠将對話中的影像、文本甚至更多模态統一轉化為一維 token 序列,直接通過自回歸的方式輸入給模型。這樣就無需再依賴文本作為橋梁,避免了信息的中途損失。更關鍵的是,模型每次都能保留完整的影像信息,因此能夠根據用戶指令,對影像内容進行更細致、更可控的調整。
對于更多用戶而言,GPT-4o 此次更新帶來的驚喜還體現在使用流程的絲滑度上,讓 " 一句話生圖 "、" 用嘴改圖 " 的可行性直線拉升。相較而言,此前主流的 AI 生圖工具 Stable Diffusion 對使用者的專業能力要求較高,需要掌握不同插件及參數的設定。而 Midjourney 在可控性和一致性方面較弱,不适用于要求高度一致性的任務。
設計師章蕭醇在社交平台 X 上直言,GPT-4o 的影像能力直接推翻了之前很多創業公司的產品。" 他們花了那麼多時間、人力、投資人的錢去調優的算法、工作流、模型,直接被一次大模型的更新就取代了。"
GPT-4o 模型于去年 5 月正式推出,主打的就是具備能夠處理文本、音頻和影像的多模态能力,與當前備受關注的 o1 等推理模型有所不同。但在近一年的時間内,4o 都未向用戶放開其影像生成功能。
3 月 28 日,GPT-4o 再迎部分更新,包括更擅長遵循詳細的指令、提高了解決復雜技術和編碼問題的能力。Sam Altman 預告稱," 更多更新即将到來。"