今天小編分享的互聯網經驗:免費 AI “神器”系列第五彈:斯坦福洗碗機器人突然爆火,字節版DALL·E登上開源榜單前三,歡迎閲讀。
圖片來源:unsplash
近期,生成式人工智能(AIGC)領網域又湧現出多款創意十足的新應用。
今天,钛媒體 AGI 梳理了免費 AI " 神器 " 系列第五彈,共五款,其中不少產品又再一次拓寬了我們對 AI 的想象力。
斯坦福 AI 機器人框架技術—— UMI
字節版 DALL · E 文生圖模型—— SDXL-Lightning
在線試衣服神器—— OOTDiffusion
高質量動畫生成模型—— AnimateLCM-SVD-xt
" 全能 " 視頻生成大模型—— VideoPoet
1、斯坦福 AI " 螃蟹 " 洗碗機器人技術—— UMI
繼斯坦福炒蝦機器人爆火全網之後,斯坦福大學再出新的 " 洗碗機器人 ",引發關注。
產品信息:UMI 是由美國斯坦福大學團隊開發的一個 AI 機器人數據收集和策略學習框架,通過手持式夾持器和精心設計的接口進行數據收集,可以将人類在復雜環境下的操作技能直接轉移給機器人,無需人類編寫詳細的編程指令。
簡單來説,UMI 就是通過人類操作演示然後收集數據,直接轉移到機器人身上,使得機器人能夠快速學習新任務。
產品功能:UMI 技術涵蓋技能轉移、數據收集、多平台部署、提高機器人操作能力、快速适應新任務、降低機器人學習成本等新亮點和功能,提供了一個便攜、直觀、低成本的數據收集和策略學習框架,允許直接讓人類演示轉化為有效的視覺運動策略。
相比傳統機械臂遙控操作,UMI 在動态、精确、雙手操作和長期視角等方面,能更快實現 AI 機器人替代人類任務效果。
項目及演示:https://umi-gripper.github.io
GitHub:https://github.com/real-stanford/universal_manipulation_interface
2、字節版 DALL · E —— SDXL-Lightning 開源文生圖模型
產品信息:SDXL-Lightning 是一款由字節跳動開發的開源免費的文生圖模型,能根據文本快速生成相應的高分辨率影像。
產品功能:用户在 SDXL-Lightning 上輸入提示詞,然後選擇推理步驟(選擇範圍為 1 步— 8 步),等待數秒即可生成一張高清影像。
與以往的文生圖模型相比,SDXL-Lightning 的生成速度有顯著提高,能夠在最少步驟内完成文本到 1024px 分辨率影像的生成,适用于需要快速響應的應用場景。
SDXL-Lightning 的生成效果圖
SDXL-Lightning 的生成速度之所以能夠顯著提升,主要是因為它通過結合漸進式蒸餾和對抗式蒸餾的方法,解決了擴散模型在生成過程中存在的速度慢和計算成本高的問題,同時保持生成影像的高質量和多樣性,避免了傳統蒸餾方法中存在的影像模糊問題。
使用 SDXL-Lightning 模型,可在幾秒鍾之内生成高達 1024 像素分辨率的影像。目前,該模型已經在 Hugging Face 平台上開源,并且下載量超過 2200 次,登上了 Hugging Face 流行趨勢第三名,超越了 gemma-2b,僅次于最新的谷歌 gemma-7b,以及 stabilityai/stable-cascade。
體驗地址:https://huggingface.co/spaces/AP123/SDXL-Lightning
3、在線試衣服神器—— OOTDiffusion
產品信息:OOTDiffusion 是一個高度可控的虛拟服裝試穿開源工具,可在線生成不同型号、款式的服裝在模特身上的試穿效果。
產品功能:OOTDiffusion 支持半身和全身虛拟試穿,用户在主頁面選擇與自身相似的模特體型,再選好心儀的服裝款式,點擊 "Run" 按鈕後等待一分鍾左右即可生成試穿效果。
OOTDiffusion 主頁面在右側展示了模特的試穿效果。
用户可通過 OOTDiffusion 調整模型路徑、縮放比例和采樣次數等參數,精細控制虛拟試穿的細節和效果,以滿足不同的試穿需求和偏好。
如未來推廣開來,OOTDiffusion 想必會成為網購愛好者的心頭好。另外,線上服裝品牌也可借其生成不同款式衣服的模特宣傳圖,節省一筆宣傳經費。截至發稿,OOTDiffusion 在 Github 上已累積 988 顆星。
4、高質量動畫生成模型—— AnimateLCM-SVD-xt
產品信息:AnimateLCM-SVD-xt 是一款能以盡可能少的步驟加速采樣生成高保真視頻的模型。該模型由來自香港中文大學 MMLab、Avolution AI、上海人工智能實驗室、商湯研究院的研究人員共同研發。
產品功能:在 AnimateLCM-SVD-xt 上,用户可輸入提示詞,并可自由選擇推理步驟數、生成視頻的寬高尺寸來定制生成視頻。AnimateLCM-SVD-xt 目前僅需 2~8 個推理步驟就能生成 25 幀分辨率 576x1024 的高質量動畫,比傳統 Stable Video Diffusion(SVD)模型生成速度更快、視頻生成質量更高。
VideoPoet 生成的視頻效果
體驗地址:https://huggingface.co/spaces/wangfuyun/AnimateLCM
5、" 全能 " 視頻生成大模型—— VideoPoet
產品信息:VideoPoet 是谷歌推出的一款視頻生成大模型,主要有文本轉視頻、圖片轉視頻、視頻風格轉換、視頻修復和視頻生成音頻五大功能,而且默認生成豎屏方向的視頻,迎合了短視頻内容的需求。
產品功能:VideoPoet 在單一的大型語言模型中集成了多種視頻生成能力,能根據不同的任務需求(如文本到視頻、影像到視頻等)調整其生成過程。每種任務類型都有特定的任務标記指示,以引導模型進行相應的視頻生成。
此外,VideoPoet 還能通過連續預測的方式生成長視頻,即通過在每一步中參考視頻的最後一部分(例如最後 1 秒),然後預測接下來的内容,從而實現視頻的延伸生成。谷歌研發團隊曾使用 VideoPoet 制作了一個浣熊去旅行的短視頻。
谷歌研發團隊曾使用 VideoPoet 制作了一個浣熊去旅行的短視頻。
VideoPoet 曾被外界視為革命性的 Zero-shot 視頻生成工具。值得注意的是,2 月 22 日有消息稱,谷歌 VideoPoet 原項目負責人、卡内基梅隆大學(CMU)計算機學院兼職教授蔣路目前已經加入 TikTok。
演示地址:https://sites.research.google/videopoet/
(本文首發钛媒體 App,作者|任穎文,編輯|林志佳)