今天小编分享的互联网经验:免费 AI “神器”系列第八弹:全球首个 AI 軟體工程师Devin来袭;阿里版Sora模型爆火,欢迎阅读。
图片来源:unsplash
近期,通用人工智能(AGI)领網域又涌现出多款创意十足的新应用。
今天,钛媒体 AGI 梳理了免费 AI " 神器 " 系列第八弹,共五款,其中不少产品再一次拓宽了我们对 AI 的想象力。
全球首个最强 AI 軟體工程师—— Cognition Labs Devin
" 阿里版 Sora" —— AtomoVideo
条漫生成神器—— Dashtoon Studio
AI 版 " 大家来找茬 " —— Anything in Any Scene
AI 头像生成器—— PhotoMaker
3D 生成模型—— TripoSR
1、全球首个最强 AI 軟體工程师—— Cognition Labs Devin
产品信息:今天,华人团队创立的 Cognition Labs 推出全球第一个 AI 軟體工程师 Devin,也是目前最强的 AI 軟體工程师,引发网络关注。
产品功能:不同于 GitHub Copilot 等 AI 编程助手,Devin 并非单纯辅助的角色,而是能够完全独立、端到端地完成整个开发项目,包括从编写代码、修复 Bug 到最终执行的完整编程生命周期。
Cognition 表示,它可以计划和执行需要数千个决策的复杂工程任务,可以在每一步中回忆相关的上下文,随着时间的推移学习并纠正错误,以及主动与用户协作的能力;而且 Cognition 还为 Devin 配备了通用的开发人员工具,包括 shell、代码编辑器和沙盒计算环境中的浏览器——人类完成工作所需的一切。
数据显示,根据他们对 Devin 在 SWE-bench 上做的测评,Devin 不仅可以自动完成任务,还可以在几分钟内自行编写整个应用程式,并且自动正确解决了 13.86% 的问题,远远超过 Claude 2(4.80%)、Llama、GPT-4(1.74%,3.5 测试结果是 0%)。
随着 Devin 的推出,3 月 13 日,Cognition Labs 宣布完成 2100 万美元的 A 轮融资,由 Funders Fund 领投,Stripe 创始人 Patrick Collison 和 John Collison,Twitter 前高管埃拉德 · 吉尔 ( Elad Gil ) 等跟投。目前,Cognition 创始团队共有 10 个人,华人面孔居多。
项目地址:https://www.cognition-labs.com/blog
2、" 阿里版 Sora" —— AtomoVideo
产品信息:AtomoVideo 是一款由阿里巴巴推出的高保真图生视频(I2V,Image to Video)框架,能通过输入图片生成对应的动态视频。
产品功能:用户向 AtomoVideo 输入一张高清图片后,即可生成 1~2 秒的动态视频。视频内容不仅与初始图片的细节与风格保持高度一致,而且动作也相对流畅,不会出现突兀的跳转。
AtomoVideo 演示视频
此外,AtomoVideo 不仅能与现有的多种文生图(T2I)模型兼容,还能够通过迭代预测后续帧的方式,支持长视频序列的生成。
据开发团队介绍,AtomoVideo 生成的视频的动作流畅度和时间连贯性,都要明显优于明星视频生产产品 Pika 与 Runway。他们使用了多粒度影像注入技术,能使 AtomoVideo 生成的视频与给定影像保持高度的一致。
AtomoVideo 一经推出便受到不少关注,被誉为 " 阿里版 Sora"。不过,目前阿里团队只发布了 AtomoVideo 的论文和演示视频,并未开放在线体验地址。
项目地址:https://huggingface.co/papers/2403.01800
3、条漫生成 " 神器 " —— Dashtoon Studio
产品信息:Dashtoon Studio 是一款由初创公司 Dashtoon 推出的 AI 漫画生成应用,能根据文本快速生成相应的漫画。
产品功能:用户只需在 Dashtoon Studio 平台的文本框,输入一段包含人物与情节的文本,等待 2 分钟左右就能生成一话漫画。Dashtoon Studio 允许用户自由设定漫画人物的形象与漫画风格,创作有个人特色的漫画作品。
Dashtoon Studio 允许用户自由设定漫画人物的形象与漫画风格
Dashtoon 表示,这一工具可以大幅缩短漫画的制作时间。此前创作一话漫画可能需要 40~50 小时,现在只需 5~6 小时。
公开资料显示,Dashtoon 由 Sanidhya Narain、Lalith Gudipati 和 Soumyadeep Mukherjee 于 2022 年 12 月创立,前两者曾是音频娱乐公司 Pocket FM 的创始团队成员。
2023 年 11 月,Dashtoon 宣布,已完成 500 万美元种子轮融资,印度风投公司 Matrix Partners India 和 Stellaris Venture Partners 领投。此轮资金计划将用于 Dashtoon 在未来几个月内深化其人工智能研究、推进产品开发和内容制作。
4、AI 版 " 大家来找茬 " —— Anything in Any Scene
产品信息:Anything in Any Scene 是一款由小鹏汽车推出、能将任何对象无缝插入到动态视频中的视频模拟框架。
产品功能:Anything in Any Scene 能将真实的物体集成到给定的场景视频中,并放置在适当的位置以确保几何真实感,还能根据视频里的天气状况和光照条件模拟真实阴影,并采用风格转换网络来细化最终的视频输出,以最大限度地提高被插入物体与视频的融合度。
视频中被红框框出的物体就是被 Anything in Any Scene 巧妙安插进去的。
Anything in Any Scene 的开发团队表示,该框架可以用于电影制作,例如替换掉一些拍摄成本较高的电影场景,或模拟现实世界很少发生但又比较重要的场景。
项目地址:https://anythinginanyscene.github.io/
5、AI 头像生成器—— PhotoMaker
产品信息:PhotoMaker 是一款由腾讯开发,可以根据文本描述生成多种风格照片的 AI 生成技术。
产品功能:用户可以在 PhotoMaker 上输入想定制的人的多张照片,然后结合文本描述,生成不同风格的个人照片。还可以把多张人物照片特征混合后,生成个性化的人物影像,比如将苹果公司 CEO 蒂姆 · 库克和 OpenAI 首席执行官萨姆 · 奥尔特曼照片混合,再比如生成图灵奖得主杨立昆(Yann LeCun)配上各种电影画面的 AI 合成图片,形成拥有全新面部特征的人物。
PhotoMaker 的生成效果示意图
PhotoMaker 甚至可以将人物的黑白老照片变成彩色高清照片,还能通过替换关键词,改变原照片人物的年龄和性别。截至发稿,PhotoMaker 在 Github 上已累积超过 7700 颗星。
体验地址:https://huggingface.co/spaces/TencentARC/PhotoMaker
6、3D 生成模型—— TripoSR
产品信息:TripoSR 是一款由 Stability AI 和华人团队 VAST 联合推出的 3D 生成模型。
产品功能:用户只需将影像上传到 TripoSR 上,等待数秒后就能生成对应的 3D 模型图。不需要任何 prompt 和专业知识,甚至不需要依赖 GPU。
TripoSR 生成的 3D 模型图
开发团队声称,这款 3D 生成模型能为游戏、工业设计和建筑专业人士提供用于可视化 3D 对象的响应式输出。
体验地址:https://huggingface.co/spaces/stabilityai/TripoSR
(本文首发钛媒体 App,作者|任颖文、林志佳,编辑|林志佳)