今天小编分享的互联网经验:免费 AI “神器”系列第五弹:斯坦福洗碗机器人突然爆火,字节版DALL·E登上开源榜单前三,欢迎阅读。
图片来源:unsplash
近期,生成式人工智能(AIGC)领網域又涌现出多款创意十足的新应用。
今天,钛媒体 AGI 梳理了免费 AI " 神器 " 系列第五弹,共五款,其中不少产品又再一次拓宽了我们对 AI 的想象力。
斯坦福 AI 机器人框架技术—— UMI
字节版 DALL · E 文生图模型—— SDXL-Lightning
在线试衣服神器—— OOTDiffusion
高质量动画生成模型—— AnimateLCM-SVD-xt
" 全能 " 视频生成大模型—— VideoPoet
1、斯坦福 AI " 螃蟹 " 洗碗机器人技术—— UMI
继斯坦福炒虾机器人爆火全网之后,斯坦福大学再出新的 " 洗碗机器人 ",引发关注。
产品信息:UMI 是由美国斯坦福大学团队开发的一个 AI 机器人数据收集和策略学习框架,通过手持式夹持器和精心设计的接口进行数据收集,可以将人类在复杂环境下的操作技能直接转移给机器人,无需人类编写详细的编程指令。
简单来说,UMI 就是通过人类操作演示然后收集数据,直接转移到机器人身上,使得机器人能够快速学习新任务。
产品功能:UMI 技术涵盖技能转移、数据收集、多平台部署、提高机器人操作能力、快速适应新任务、降低机器人学习成本等新亮点和功能,提供了一个便携、直观、低成本的数据收集和策略学习框架,允许直接让人类演示转化为有效的视觉运动策略。
相比传统机械臂遥控操作,UMI 在动态、精确、双手操作和长期视角等方面,能更快实现 AI 机器人替代人类任务效果。
项目及演示:https://umi-gripper.github.io
GitHub:https://github.com/real-stanford/universal_manipulation_interface
2、字节版 DALL · E —— SDXL-Lightning 开源文生图模型
产品信息:SDXL-Lightning 是一款由字节跳动开发的开源免费的文生图模型,能根据文本快速生成相应的高分辨率影像。
产品功能:用户在 SDXL-Lightning 上输入提示词,然后选择推理步骤(选择范围为 1 步— 8 步),等待数秒即可生成一张高清影像。
与以往的文生图模型相比,SDXL-Lightning 的生成速度有显著提高,能够在最少步骤内完成文本到 1024px 分辨率影像的生成,适用于需要快速响应的应用场景。
SDXL-Lightning 的生成效果图
SDXL-Lightning 的生成速度之所以能够显著提升,主要是因为它通过结合渐进式蒸馏和对抗式蒸馏的方法,解决了扩散模型在生成过程中存在的速度慢和计算成本高的问题,同时保持生成影像的高质量和多样性,避免了传统蒸馏方法中存在的影像模糊问题。
使用 SDXL-Lightning 模型,可在几秒钟之内生成高达 1024 像素分辨率的影像。目前,该模型已经在 Hugging Face 平台上开源,并且下载量超过 2200 次,登上了 Hugging Face 流行趋势第三名,超越了 gemma-2b,仅次于最新的谷歌 gemma-7b,以及 stabilityai/stable-cascade。
体验地址:https://huggingface.co/spaces/AP123/SDXL-Lightning
3、在线试衣服神器—— OOTDiffusion
产品信息:OOTDiffusion 是一个高度可控的虚拟服装试穿开源工具,可在线生成不同型号、款式的服装在模特身上的试穿效果。
产品功能:OOTDiffusion 支持半身和全身虚拟试穿,用户在主页面选择与自身相似的模特体型,再选好心仪的服装款式,点击 "Run" 按钮后等待一分钟左右即可生成试穿效果。
OOTDiffusion 主页面在右侧展示了模特的试穿效果。
用户可通过 OOTDiffusion 调整模型路径、缩放比例和采样次数等参数,精细控制虚拟试穿的细节和效果,以满足不同的试穿需求和偏好。
如未来推广开来,OOTDiffusion 想必会成为网购爱好者的心头好。另外,线上服装品牌也可借其生成不同款式衣服的模特宣传图,节省一笔宣传经费。截至发稿,OOTDiffusion 在 Github 上已累积 988 颗星。
4、高质量动画生成模型—— AnimateLCM-SVD-xt
产品信息:AnimateLCM-SVD-xt 是一款能以尽可能少的步骤加速采样生成高保真视频的模型。该模型由来自香港中文大学 MMLab、Avolution AI、上海人工智能实验室、商汤研究院的研究人员共同研发。
产品功能:在 AnimateLCM-SVD-xt 上,用户可输入提示词,并可自由选择推理步骤数、生成视频的宽高尺寸来定制生成视频。AnimateLCM-SVD-xt 目前仅需 2~8 个推理步骤就能生成 25 帧分辨率 576x1024 的高质量动画,比传统 Stable Video Diffusion(SVD)模型生成速度更快、视频生成质量更高。
VideoPoet 生成的视频效果
体验地址:https://huggingface.co/spaces/wangfuyun/AnimateLCM
5、" 全能 " 视频生成大模型—— VideoPoet
产品信息:VideoPoet 是谷歌推出的一款视频生成大模型,主要有文本转视频、图片转视频、视频风格转换、视频修复和视频生成音频五大功能,而且默认生成竖屏方向的视频,迎合了短视频内容的需求。
产品功能:VideoPoet 在单一的大型语言模型中集成了多种视频生成能力,能根据不同的任务需求(如文本到视频、影像到视频等)调整其生成过程。每种任务类型都有特定的任务标记指示,以引导模型进行相应的视频生成。
此外,VideoPoet 还能通过连续预测的方式生成长视频,即通过在每一步中参考视频的最后一部分(例如最后 1 秒),然后预测接下来的内容,从而实现视频的延伸生成。谷歌研发团队曾使用 VideoPoet 制作了一个浣熊去旅行的短视频。
谷歌研发团队曾使用 VideoPoet 制作了一个浣熊去旅行的短视频。
VideoPoet 曾被外界视为革命性的 Zero-shot 视频生成工具。值得注意的是,2 月 22 日有消息称,谷歌 VideoPoet 原项目负责人、卡内基梅隆大学(CMU)计算机学院兼职教授蒋路目前已经加入 TikTok。
演示地址:https://sites.research.google/videopoet/
(本文首发钛媒体 App,作者|任颖文,编辑|林志佳)