今天小編分享的互聯網經驗:已經有人替OpenAI把GPT-5做出來了?,歡迎閲讀。
從理論到實踐,大語言模型 LLM 完全體的形态是什麼樣子的?
很多人會説是基于對自然語言的深刻理解,但這一點目前 OpenAI 的 GPT 系列已經做得很好。也有人在讨論 AI Agent 在實踐上的可能性,但目前這種讨論也沒有脱離對自然語言的處理範疇。
生成式 AI 實際上包括了兩個方面,大語言模型是其中之一,它着重理解人類的語言,而更廣泛的所謂 AIGC 應用,實際上指的是以擴散模型為代表的跨模态轉換能力,也就是所謂的文生圖、文生視頻等等。
那麼把這二者結合起來呢?在許多人眼中,這實際上就是下一代 GPT,或者説 GPT 完全體的樣子。最近出現在預印網站 arxiv 上的一篇來自新加坡國立大學計算機學院的論文引起了人們的注意,因為這篇論文設計的 NExT-GPT 模型試圖進行全面的模态轉換。
從上圖中我們可以看到,NExT-GPT 模型的輸入和輸出端都能生成包括文字、圖片、音頻和視頻在内的多種模态形式。其中輸出端除了文字以外均使用了對應不同模态的擴散模型。輸入和輸出之間的介質轉換依靠大模型進行。
NExT-GPT 模型的樣式實際上不僅符合目前人們試圖把生成式 AI 的兩股力量:大語言模型和擴散模型結合起來的趨勢,甚至某種程度上説也符合人的直覺:人類大腦正是依靠對多種模态的自由轉換和互動理解來認識這個世界的。
特别值得指出的是,所謂多模态轉換與大語言模型能力的結合,并不是簡單的用 prompt 方式在彼此之間 " 搭橋 ",而是真正把多模态數據(向量)同語言數據結合起來,這個過程被真正拉通後,等于大模型可以不僅學習從而理解人的語言,還能把這種能力擴大到更多模态去,這種結合一旦成功,将會帶來 AI 能力質的飛躍。
NExT-GPT 結構一覽:兩個突破點
據説 Google 和 OpenAI 的 GPT5 都在進行類似的研究。在這之前,讓我們首先來看看 NExT-GPT 模型是怎麼做到的吧。
總的來説,NExT-GPT 模型是把大模型與多模态适配器以及擴散模型解碼器連接了起來,僅僅在投影層進行了 1% 的參數調整。論文的創新之處在于創建了一個名為 MosIT 的模态切換調整指令,以及一個專門針對跨模态轉換的數據集。
具體來説,NExT-GPT 由三層組成,第一層是各種成熟編碼器對各種模态輸入進行編碼,然後通過投影層映射到大語言模型可以理解的形式。第二層這是一個開源的大語言模型,用來進行推理。值得一提的是,大語言模型不僅會生成文本,還會生成一個獨特的标記,用來指令解碼層輸出具體什麼模态的内容。第三層則是将這些指令信号經過投影,對應不同的編碼器生成對應的内容。
為了降低成本,NExT-GPT 利用了現成的編碼器和解碼器,為了最大限度的減輕不同模态内容轉換時出現的 " 噪聲 ",NExT-GPT 利用了 ImageBind,它是一個跨模态的統一編碼器,這樣 NExT-GPT 不需要管理諸多異構的模态編碼器,而是可以統一将不同模态投影到大語言模型中去。
至于輸出階段,NExT-GPT 廣泛使用了各種成熟的模型,包括用于影像生成的 stable diffusion,視頻生成的 Zeroscope,以及音頻合成的 AudioLDM。下圖是論文中一個推理過程的一環,可以看到文本模式和信号标記決定了模态被如何識别、觸發以及生成,灰色的部分是沒有被觸發的模态選項。
這其中涉及到了一個不同模态之間語義理解的問題,因此對齊是必不可少的。不過由于結構上比較清晰,實際上 NExT-GPT 的對齊是很好操作的。作者設計了一個三層的耦合結構,編碼端以大模型為中心對齊,解碼端則與指令對齊。這種對齊放棄讓擴散模型與大語言模型之間執行完整規模的對齊過程,而是僅使用文本條件編碼器,在最小化了大模型模式信号标記與擴散模型文本之間的距離後,對齊僅僅基于純粹的文本進行,因此這種對齊的量級很輕,只有大概 1% 的參數需要調整。
考慮到需要讓 NExT-GPT 具備準确地跨模态生成和推理的能力,論文還引入了 MosIT,也就是 Modality-switching Instruction Tuning 模式切換指令微調,它的訓練基于 5000 個高質量樣本組成的數據集。
具體的訓練過程有些復雜,就不展開細説了,總的來説 MosIT 可以重構輸入和輸出的文本内容,讓 NExT-GPT 能夠很好理解文本、影像、視頻和音頻的各種模式組合中的復雜指令,這就十分接近人類理解和推理的模式。
完全體要來了嗎?
目前 NExT-GPT 還具有許多的弱點,作者在論文中也提到了不少,比如非常容易想到的,四種模态對于真正的多模态完全體大模型來説種類還是有點太少,訓練 MosIT 的數據集的數量同樣有限。
另外,作者還正努力試圖通過不同尺寸的大語言模型來讓 NExT-GPT 适應更多場景。
相比尺寸來説,另一個棘手的問題更為現實。盡管 NExT-GPT 展現出一種關于多模态能力的強大前景,但其實以擴散模型為代表的 AIGC 能力目前所能達到的水平依然有限,這影響了整個 NExT-GPT 的性能。
總的來説,多模态 AI 有着非常誘人的前景,因為它和應用場景以及用户的需求結合的更緊密,在大模型賽道目前熱度略有下降的情況下,多模态 AI 給人以巨大的想象空間。NExT-GPT 作為一個端到端的多模态大模型,實際上已經具備了多模态 AI 的雛形,論文中關于參數調優對齊以及使用 MosIT 進行模型推理能力強化的思路讓人印象深刻,因此我們甚至可以説,邁向完全體 AI 的道路,此刻已經有人邁出了第一步。