今天小編分享的科技經驗:OpenAI新年開出王炸,AI競争更新,歡迎閱讀。
OPEN AI 又刷屏了。
2023 年年初,OPEN AI 就曾引爆全球科技圈。
因為其發布了一個全新的聊天機器人模型—— ChatGPT。和過去那些簡單的聊天機器人相比,ChatGPT 不僅可以回答人類的追問,承認自己回答中的錯誤,拒絕回答不适當的問題,還能寫詩、編程、寫論文等等。
連馬斯克都忍不住感嘆:"ChatGPT 好得吓人,我們離強大到危險的人工智能不遠了。" 距離發布後僅兩個月,ChatGPT 月活用戶就達到了 1 億,為其母公司 OpenAI 拉來了微軟 100 億美元的下注。
2024 年年初,相似的故事又在上演。
2 月 16 日凌晨,OpenAI 在 AI 生成視頻領網域扔出一枚 " 王炸 ",宣布推出全新的生成式人工智能模型 "Sora"。
在 OpenAI 官網分享的演示視頻中,Sora 可以直接輸出有多個角色、多種場景和運鏡的畫面。這對比一年前 AI 生成的視頻,簡直是天差地别,其視頻長度方面就 " 碾壓 " 同行。
據了解,通過文本指令,Sora 可以直接輸出長達 60 秒的視頻,且視頻的精致程度遠超大部分人的想象。
這意味着,繼文本、影像之後,OpenAI 将其先進的 AI 技術拓展到了視頻領網域。
馬斯克也再次評價了 OpenAI 視頻模型:"AI 增強的人類将在未來幾年裡創造出最好的作品。"
Sora 讓人驚豔的到底是什麼?
一方面是技術上的突破。
Sora 能夠生成長達 1 分鍾的超長視頻,遠超 Runway-gen2 的 18 秒和 Pika 的 3 秒。
更重要的是,相比之前 AI 視頻明顯的 "AI 感 " 不同,Sora 制作的視頻在逼真度和畫面精致程度将整個 AI 視頻行業提升到 next level。
從官網視頻來看,人物臉上的黑痣粉刺,地面積水倒映的霓虹光影等等,其細節的精細度幾乎已經做到了以假亂真。換句話來說,Sora 創作的視頻質量,無論是高清度還是還原度,都是可圈可點的。
另一方面,同樣引人關注的是,Sora 理解長文本的能力。OpenAI 在官方博客中寫道,"Sora 不僅可以理解用戶的需求,還知道這些事物在現實世界如何存在。"
什麼意思呢?只需要輸入一段文本,Sora 就能自動生成最長一分鍾的高清視頻。讓人驚豔的是,Sora 不僅可以準确把握用戶文本中的復雜意思,并且還能分拆出不同的元素,将其轉換為有具體創意構思的視頻内容,看起來就像是專業導演、攝像和剪輯的作品。
比如 Sora 以 " 色彩缤紛的魚類和海洋生物充斥的,由紙藝精心構建的珊瑚礁世界 " 為主題的視頻中, Sora 通過其攝影角度和拍攝時機,成功地推進了故事的發展。視頻中實際上發生了多次鏡頭轉換,這些沒有特别指令它這麼做,它卻能自動完成。
據内行人士透露,像是 Sora 生成的視頻,就算是頭部動畫制作公司都需要數日時間完成,而 Sora 只需要幾分鍾搞定。
國盛證券認為 Sora 相比此前其他文生視頻模型,已經跨越到實用生產力工具,1 分鍾長度有望大規模應用在短視頻領網域,擴展視頻的能力也有望制作長視頻,或将帶來新一輪内容創作產業革命。
當然 ,Sora 并不完美。OpenAI 官網指出它可能難以準确模拟復雜場景的物理原理,并且可能無法理解因果關系,混淆提示的空間細節。
以此次發布的 DEMO" 與中國龍一起慶祝農歷新年的視頻 " 為例,Sora 無法準确生成視頻畫面中的中文,還被網友調侃調侃 " 都怪中文太難了?" 以及視頻中老人生日蛋糕蠟燭,但蠟燭火苗前面卻沒有絲毫變化等等。
但 OpenAI 的團隊,讓 AI 能從最初的模糊分辨不清的影像,進步到目前足以生成長視頻的階段,可見其發展可怖。
B 站一位網友是這麼評價的:
"sora 出之前我還在給 gpt5 心裡打一個問号,到底能提升多少,openai 還能繼續領跑麼,但現在我是真的服了,真的是比其他廠牛逼不止一點,一出手就是降維打擊,sora 也是 transform 架構,這不就是 gpt5 的一部分麼,之前網上說 gpt5 看完了互聯網的所有視頻我還不信,現在我信了 "。
競争更新
Sora 最直接的影響的肯定是對視頻行業的衝擊。作為一種視頻生成工具,Sora 僅需文字就可以生成 60 秒時長的精細視頻,大大降低了視頻制作的門檻和成本,特别是熱點類等具備強烈時效性的内容。
不過 Sora 更深層的意義在于,這也意味着有關 AI 的競争再度更新。
2023 年,ChatGPT 的發布引領全球進入 AI 熱潮,光是中國公司就發布了超過 130 個大模型。起初,大家的目标都是朝着自研大模型進發——有錢的大廠研發基座模型,創業公司們則轉向研發在開源模型基礎上加入特定數據集做微調的行業模型、垂直模型。
但事實證明,大模型真正的門檻在于高昂的成本——海量的算力、能提供定制服務的數據服務商和頂尖的人才團隊。
以算力為例,目前市場絕大部分被用于訓練大模型的算力芯片都來自于英偉達。根據财經報道,2023 年,英偉達 A100 的售價漲了約 1 倍。單單部署 1000 台伺服器的電力成本就高達月 20 萬元。
大廠們的優勢在于,既擁有雄厚的财力去大規模購買、部署 GPU,也能及時通過工程優化,利用大模型去實現效率提升。
根據晚點 LatePost 報道,11 月,基于阿裡的 " 通義千問 ",跨境業務 AI Business 團隊正式對外公布自己的產品 "Aidge",兼具翻譯、營銷、設計、本地化服務等一系列功能。統計數據顯示,11 月經過 AI 優化後的商品,獲得的海外詢盤量比之前增加了 15%。
字節則在推出了雲雀大模型後,相繼研發出了豆包、扣子、話爐等產品。以話爐為例,用戶可以在其中與 AI 智能體一道,通過故事聊天、創作,獲得互動體驗。
Sora 使用 transformer 架構,将視頻和影像表示為稱為 Patch 的較小數據單元的集合,類似于 GPT 中的 token。重要的是,它和 GPT 一樣符合 AI 縮尺律(Scaling Law),也就是說随着訓練計算量的增加,樣本質量明顯提高。
有行業人士表示,目前 Sora 暫未對外開放使用,僅 OpenAI CEO Sam Altman 在 X 平台上與評論互動生成視頻,認為算力的限制可能是目前 Sora 暫未開放使用的重要因素。
算力已經成為了各家最為關注的資源之一。2018 年,Altman 個人投資了一家 AI 芯片初創公司 Rain Neuromorphics,2019 年,OpenAI 花費 5100 萬美元購買 Rain 的芯片;去年 11 月,Altman 為一家代号為 "Tigris" 的芯片企業尋求數十億美元的資金。
軟銀集團創始人孫正義則正尋求籌措 1000 億美元資金成立一家芯片企業,與旗下半導體設計公司 ARM 的業務形成互補。
不過 Sora 的驚豔并不意味着其他人就沒有機會。視頻生成賽道此前的明星公司是 Runway 和 Pika,盡管有許多人認為 Sora 很容易對兩者進行降維打擊,但 Pika 創始人郭文景在回應钛媒體時稱," 我們覺得這是一個很振奮人心的消息,我們已經在籌備直接衝,将直接對标 Sora。"
事實上,OpenAI 也并非毫無對手。和 Sora 同一時期發布的還有谷歌的 Gemini1.5 Pro,根據官方數據,其支持長達 100 萬個 token,遠超當前其他基礎模型,可以一次性處理大量信息,如 1 小時的視頻、11 小時的音頻、超過 3 萬行代碼或超過 70 萬個單詞。
Sora 當然是 OpenAI 領先的有力證明,但更像是大模型這個 " 大力出奇迹 " 賽道競争更新的信号。
>