今天小編分享的互聯網經驗:AI原生時代,應用創新蓄勢待發,歡迎閱讀。
本文摘自《雲栖戰略參考》,這本刊物由阿裡雲與钛媒體聯合策劃。目的是為了把各個行業先行者的技術探索、業務實踐呈現出來,與思考同樣問題的 " 數字先行者 " 共同探讨、碰撞,希望這些内容能讓你有所啟發。
邁入 AI 大模型和生成式技術飛躍發展的時代,基于 AI 的應用創新正在成為新的主題。
2023 年,從通用大模型喧嚣到行業大模型集中落地,AI 應用創新也在下半年呈爆發式湧現;2024 年,AI 應用的顆粒度正在進一步細化,關注點和效用也更實際,也正進一步走近垂直細分領網域的價值實現。
對于大多數產業以及其中的企業來說,轉變技術範式、突破傳統模式發展是更現實的挑戰,以 AI 賦能現有的技術、業務,是最現實的命題,也是最具效率、落地速度最快的路徑。
但不同于從傳統產業中誕生的創新,AI 時代的新創業者天生就是原住民,他們對新技術的理解、應用和探索得心應手,天然使用 AI 思維構建應用的模式。
人們對 "AI 原生 " 充滿好奇,不僅是想了解其全新模式内涵,也想知道下一個風口将從哪裡發起。本刊将定期匯總盤點國内外最新的 AI 原生應用,希望為讀者提供創新發展趨勢的信息和思考。
多模态生成式 AI 競賽進行中
從 2023 年國内妙鴨相機爆火,到 2024 年初 Sora 引爆全球,AGI 所能呈現的内容深度正在迅速下潛。
《福布斯》雜志對 2024 年 AI 領網域關鍵創新的預測之一就是多模态生成式 AI,稱此類系統能處理文本、聲音、旋律和視覺信号等各種輸入信息,并将其融合起來進行綜合理解。随着多模态技術的不斷發展,AI 模型将迎接更加復雜多樣化的互動場景,有望在智能家居、智慧城市、醫療診斷、自動駕駛等領網域打開全新的應用空間。
視頻生成
Sora 發布被認為是 AGI 實現過程裡的重大裡程碑事件,而不僅僅只是視頻生成技術的突破。它對語言的理解也達到了一個新的層級,使其能夠準确地理解提示詞,并生成表達充滿活力的情感的視頻。它建立在過去對 DALL · E 和 GPT 模型的綜合研究之上,提出了一種新的模型可能,不僅可以理解用戶在提示中提出的要求,還能理解物理世界的存在方式。
在 AI 巨頭 OpenAI 入局之前,創業企業 Runway 和 Pika 被認為是這一賽道的佼佼者。
Pika Labs 成立于 2023 年 4 月,同年 11 月發布首個產品 Pika1.0,能夠生成和編輯 3D 動畫、動漫、卡通和電影,并且普通用戶還可以對其進行加工,被視為一款零門檻 " 視頻生成神器 "。這支最初由 4 個人組建的團隊,融資超過 5500 萬美元,幾乎所有 AI 領網域的知名早期投資公司都參與了此輪融資。而就在 Pika1.0 發布才過去四個月不到,同賽道的 Sora 的橫空出世,在 AI 視頻生成這條路上,又增加了很多變數和可能性。
Pika 創始人郭文景在與钛媒體創始人趙何娟的對話中提到,目前生成式視頻發展的一個重要限制是算法的成熟度,這也是 Pika 的核心主攻方向。" 我覺得視頻跟語言模型不太一樣,關于語言模型大家已經知道大概的方法,算法其實已經比較成熟了。但視頻現在沒有很好的算法,它不是一個規模化的問題,不是說現在大家的 GPU 不夠多,很多時候其實是算法上還沒有很好的一個思路。" 郭文景說。
3 月份,Pika 對超級合作者 ( Super Collaborator ) 和 Pro 用戶開放測試了一項新功能:Sound Effects,聲稱可以給視頻無縫生成音效。生成的方式有兩種:提供 Prompt 或直接讓 Pika 根據視頻内容自動生成。Pika 還沒有公開 Sound Effects 背後的原理,此前 Sora 大火之後,語音初創公司 Eleven Labs 就出過類似的配音功能。
另一家獨角獸 Runway 成立于 2018 年,是一家 AI 視頻編輯軟體提供商,主要為設計師、藝術家和開發人員提供一系列的工具和平台,產品是幫助專業人士生成各種内容。Runway 創業之初的產品形态是一個關于機器學習模型的應用商店。随後公司基于 AI 算法,不斷開發新的模型框架。2021 年公司與慕尼黑大學、海德堡大學等共同發表《High-Resolution Image Synthesis with Latent Diffusion Models》;2022 年,公司構建了 Stable Diffusion 的原始版本,并将該技術集成進設計軟體的功能中。2023 年 2 月 6 日,Runway 發布了 Gen-1,可以通過文本提示或參考其他影像中的風格,對原視頻進行編輯,即在原視頻的基礎上生成新的視頻 ( Video to Video ) 。随後三個月内,再次推出了 Gen-2,支持由文字生成視頻。用戶可以輸入原創的文本提示,或者根據系統提供的自動提示建議進行視頻生成。Gen-2 還支持高級設定優化,用戶可以在網頁上微調生成的視頻。
2024 年 3 月,以色列初創公司 Lightricks 也發布了一款 AI 驅動的電影生成和剪輯軟體—— LTX Studio。只要通過文字,它就能直接生成復雜的劇情,包含語音、音效、視頻畫面。LTX Studio 結合了多種 AI 技術,涵蓋了創作過程中的各個環節。其中,公司獨創的文生視頻模型—— Long Animate Diff,能夠創作出幀數在 16 至 64 之間的視頻。此外,團隊還發布了另一款專門用于創作 32 幀視頻的模型。與 Long Animate Diff 相比,它在視頻質量上通常有更出色的表現。不過,對于背景音樂,公司選擇了第三方的音樂資產供應商,因為他們認為目前的 AI 技術還無法創作出符合要求的背景音樂質量。
在國内,愛詩科技 PixVerseAI 能接受包括影像、文本和音頻在内的多種數據源作為輸入,基于這些輸入生成連貫、逼真的視頻内容;該平台能在較短時間内将用戶提供的素材轉化成視頻,極大提高了視頻制作的效率;且生成的視頻不僅局限于簡單的轉譯,還能具有較高的藝術性和創造性,适合用于制作營銷視頻、社交媒體内容、教育材料等多種應用場景;用戶可以根據自身需求對生成的視頻進行一定程度的個性化設定和調整。
音頻生成
在 Suno 之前,已經有不少企業推出過 AI 音樂生成器,比如 Adobe 的 Project Music GenAI,YouTube 的 Dream Track 和 Voicify AI ( 現在的 Jammable ) ,但只有 Suno 被稱為 " 音樂界的 ChatGPT"。其與眾不同之處在于,Suno 可以根據簡單的提示創建從歌詞到人聲和配器的所有内容。
目前,SunoV3 在以下幾個方面具有顯著優勢:更好的音頻質量;更多樣化的風格和流派;更強的提示遵從性,包括更少的幻覺和更優雅的結局。
通過 SunoV3,用戶現在可以使用免費賬戶創建兩分鍾時長的完整歌曲,具體效果取決于自己選擇的流派。Suno 團隊還表示,V4 已經在開發之中,并将推出一些令人興奮的新功能。
值得注意的是,Suno 并未公布過任何訓練細節。Suno 首席執行官兼聯合創始人 Mikey Shulman 在采訪中表示:" 并非所有音頻都是通過 Transformer 完成的,有很多音頻是通過擴散完成的,這兩種方法各有利弊。"
影像與文本生成
2023 年 7 月,妙鴨相機憑借其 AI 影像生成技術,在市場上迅速走紅。用戶通過上傳一定數量的照片,就可以通過妙鴨相機 AI 技術生成高質量的多樣化風格寫真照片。FaceChain/FaceChain-FACT 算法使得妙鴨相機生成的圖片面部表情自然、細節豐富。此外,其還具備 AI 修圖、數字分身創建、模板選擇等能力。
在圖片生成之上再加入情節故事,童語故事 ( ImageStory ) 是國内首個 AIGC 的兒童繪本產品,用戶可以在小程式裡創建數字分身,為孩子定制特定主題的童話繪本和短視頻故事。
童語故事生成式繪本的兩大基礎要素是文字和圖片,與此對應,童語故事選用了通義千問和通義萬相來打造這兩項基礎能力。文字方面,文字生成的核心是通義千問的深度學習模型。在 " 童語故事 " 小程式上生成 AI Story 只需要三步:第一步,選擇故事角色。用戶可以定制自己喜歡的 IP 角色,也可以上傳照片創作自己的數字分身。第二步,輸入故事主題思想。用戶如果沒有靈感可以選擇 " 創作靈感 " 和 " 随機一個 "," 童語故事 " 提供了 20 個睡前故事和育兒故事。第三步,選擇朗讀音色、畫面風格和字數。朗讀音色提供多種風格、不同年齡聲音,畫面風格包括扁平插畫、油畫、寫真等 10 種供用戶選擇。設定故事字數和段落 / 圖片數,多情景故事還支持自動分集,以及用合集來生成。簡單設定完成後,點擊 " 立即制作 " 即可。
上線數月以來," 童語故事 " 得到了消費者的喜愛,更得到了影視公司、出版社、專業兒童作家、電商平台的認可 ",童語故事 " 的 MAU ( Monthly Active Use,月活用戶 ) 漲到了 50 萬,微信小程式用戶平均停留時間達到 8-15 分鍾,這樣的用戶時長在 "AI Story" 賽道已經排得上全球前三。
将文生圖的創意進一步專業化,供春 AI 是紫砂壺行業内第一家 AIGC 輔助設計工具。這一小眾行業有方言、圈子和文化等地網域壁壘,且紫砂設計需要師傅的認可,并且大部分 AI 設計圖師傅會在落地過程中主動微調 ( AI 設計出來的紫砂壺大部分需要人工調整 ) ,屬于細分行業領網域,市場上通用的大模型反而不适合對接 ( 設計出來的圖大部分不可用 ) ,需要基于小靈快和開源的模型做持續的訓練。
目前供春 AI 已經成為傳統工藝美術從業者的好助手,其產出的每 30~50 張圖中大約有 1 張是可以被資深工藝美術師認可的,已有 2000 多位工藝美術從業者使用供春 AI 設計紫砂壺。通過 AIGC 作為輔助工具,工藝美術師制作的工藝品已經落地 100 多件。從商業模式上,供春 AI 有一定的可復制性,目前供春 AI 已在其他陶瓷產區進行陶瓷藝術設計的推廣復制。
" 助手 " 新形态:AI Agent 快速演進
人工智能領網域著名學者、斯坦福大學教授吳恩達指出:AI 智能體工作流 ( AI Agentic Workflows ) 将在今年推動人工智能取得巨大進步,甚至可能超過下一代基礎模型。他呼籲所有從事人工智能工作的人都關注 AI 智能體工作流。
初創企業 Cognition AI 近期公布了全球首個 AI 軟體工程師 Devin。在宣傳中,Devin 能夠将用戶的提示詞直接轉化為網站或者電子遊戲。它能自主下載代碼、搭建環境、執行代碼、修復 bug 并完成任務,而且完成這些端到端的任務只需一個指令。
在 SWE-bench 基準測試中,Devin 能夠解決 13.86% 的問題,而 GPT-4 僅能處理 1.74% 的問題。更重要的是,Devin 無需人工幹預,而 GPT-4 則需要人工提示指定處理檔案。
Devin 一經發布,便引爆了整個科技圈,但在此之前絕大多數人可能根本沒聽過這家公司,畢竟他們在發布兩個月前才真正在公眾面前亮相。這家僅有 10 名員工的公司,從 Peter Thiel 的風險投資公司 Founders Fund 及其他資方 ( 包括前 Twitter 高管 Elad Gil ) 處成功籌集到 2100 萬美元。這些投資方所看中的,正是 Cognition AI 的創始團隊及其主要成果 Devin。
Cognition AI 在設計 Devin 時的一大亮點,就是該公司在計算機推理能力方面取得了突破。從 AI 的角度來講,推理意味着系統不僅能夠預測句子中的下一個單詞或者一行代碼中的下一片段,更能夠以近似人類的方式思考并找到合理的問題解決方法。AI Land 認為推理是驅動行業發展的下一波大勢,不少初創企業也都在着力展示自己在這方面的技術能力。
不同于現有其他 AI 助手,Devin 不僅能夠提供編碼建議并自動完成部分任務,甚至可以獨自承擔并完成整個軟體開發流程。其使用方式也相當簡單,只需提交一項任務——比如創建一個網站,展示悉尼市所有意大利餐廳的地圖——該軟體就會執行搜索來查找餐廳、獲取相應地址與聯系信息,而後構建并發布顯示信息的站點。在運行期間,Devin 還會列出它正在執行的所有任務,甚至在編寫代碼時持續測試,自行查找并修復 bug。
總體而言,Devin 可以規劃和執行需要數千個決策的復雜工程任務。Devin 可以回憶每一步的相關背景,随着時間的推移學習并修復錯誤。
研發團隊還為 Devin 配備了常見的開發人員工具,包括沙盒計算環境中的 Shell、代碼編輯器和浏覽器,以及人類開發者完成工作時所需的一切其他工具。最後,研發團隊還賦予了 Devin 與用戶積極協作的能力。Devin 能夠實時報告協作進展,接受反饋,并根據需要與用戶一起進行設計選擇。
Cognition AI 在如此短的時間内取得重大突破的方式仍然是個未解之謎,其 CEO Scott Wu 拒絕透露太多關于該技術的底層細節,只表示他的團隊找到了将 OpenAIGPT-4 等大語言模型 ( LLM ) 與強化學習技術相結合的獨特方法。
Cognition AI 公司并不是唯一一家致力于構建 AI 編碼工具的企業。
今年 2 月份,初創公司 Magic AI 陸續獲得了谷歌母公司 Alphabet 旗下的 Capita lG 領投的 2800 萬美元,以及 GitHub 前 CEO Nat Friedman 和他的投資合夥人 Daniel Gross 投資的 1.17 億美元資金。
Magic AI 私下宣稱其能夠實現類似于 OpenAI 去年開發的 "Q 算法 " 的主動推理能力,稱它開發的新型大語言模型更接近于人類的思維方式,能實現全自動化編程,打破現有的半自動化代碼編寫。類似于一個真正的編程人員。不過,Magic AI 選擇從零開始設計自己的模型和其他底層技術,希望借此保障業務獨立性。這家初創公司尚未對外展示其 AI 系統。
國内,除了大廠紛紛推出 Agent 產品,這一賽道也湧現了大批創業企業,并與各行業快速融合落地。
例如,實在智能在 2023 年 8 月份發布了自研垂直 " 塔斯 ( TARS ) 大語言模型 ",基于此結合 RPA 與 AI Agent,即插即用的產品級 TARS-RPA-Agent 由此誕生;瀾碼科技在 2023 年 12 月 20 日正式發布的 AskXBOT 平台,是其自主研發基于 LLM 的 Agent 智能體與工作流設計、開發、使用、管理、知識沉澱的一站式平台;智譜 AI 今年 1 月份發布了第四代多模态基座大模型 GLM-4 系列,并上線了全新 GLM-4 的 All Tools ( 所有工具 ) 、GLMs 個性化智能體定制能力 ......
結語
通過上述熱點 AI 應用創新項目,我們可以看到新技術的突破方向,也發現基于生成式 AI 迸發出的全新商業前景落地的可能性。
但一個現實的問題是:這些應用和企業是昙花一現,還是會持續繁榮?
紅杉資本在《Generative AI ’ s Act Two》中指出,目前生成式 AI 應用的最大問題,是需要證明自身的價值,因為目前以基礎大模型為先的應用用戶留存率明顯不夠。當前頭部 App 消費級公司,第一個月的用戶留存率能達到 60%~65%,高的甚至能達 85%。生成式 AI 應用的用戶留存率,中位值只有 14%。這意味着,用戶還沒有在生成式 AI 產品中找到足夠價值,能夠每天都使用。因此,如果開發者想要建立起持久的業務,就需要解決用戶留存問題。因此,生成式 AI 真正的商業價值還在于各種應用場景的發掘。
此外,不僅是應用自身的價值,當前很多 AI 創業企業的競争力嚴重依賴核心創始團隊,也由此造成了公司運營、業務持續等方面極大的不穩定性,很多公司還沒有出現可持續的商業模式就已經要化為泡沫。
2024 年 3 月 23 日,Stability AI 的 CEO 宣布辭職,這家公司培育出的 Stable Diffusion 開源文生圖大模型在業内頗具影響力。而在 CEO 辭職之前,媒體稱曾參與開發 Stable Diffusion 模型的幾位關鍵開發人員都已經離開了。據報道,Stability AI 資金耗盡,無法支付訓練大模型所需的 GPU 集群費用,外界普遍認為這家公司将面臨破產。
早在 2022 年就推出了 AI 助手 ACT-1 的 Adept 團隊中兩位聯合創始人離開後創立了自己的創業公司 Essential AI。
另一家 AI 獨角獸公司 Inflection AI 也岌岌可危,在 2023 年 6 月底,這家公司宣布融資 13 億美元,估值達到 40 億美元,成為僅次于 OpenAI 和 Anthropic 的全球第三大生成式 AI 獨角獸。但今年三位創始人中的兩位都投奔微軟成立新的公司。這些創業公司的發展與此前 OpenAI 的 " 宮鬥 " 和幾乎重新自立門戶的經歷也很像。
AI 時代的創新巨輪才剛剛開始轉動,技術成熟度曲線下 AI 創新将走出怎樣的周期,我們持續關注。
本文根據公開信息綜述,部分内容選自以下文章:
1.Sora 發布後,Pika 創始人獨家回應钛媒體:很振奮,我們将直接衝
2.90 後華人團隊真來砸程式員飯碗了 ! 推出全球首個 AI 超級工程師:擁有全棧技能,一個指令就能完成整個開發過程
3.2024 年,中國 AI 應用「大盤點」| 產業 AI4. 紅杉資本:生成式 AI 的第二幕
5. 詞曲創作只需幾秒,「AI 作曲家」Suno 引爆音樂圈,第一手體驗和攻略來了
6. 中泰證券《AI 生成視頻專題報告:Runway 基礎模型快速迭代 , 視頻生成領網域的先行者》
7.AI 版西遊記震撼百萬網友 !AI 電影颠覆好萊塢,手把手打造爆款視頻
本文摘自《雲栖戰略參考》總第 16 期
掃碼限時申領紙質版
↓↓