今天小编分享的科学经验:“Sora概念股”一片红!最新视频再上强度,有人都开始复现了,欢迎阅读。
果然,所谓 "Sora 概念股 " 在龙年首个交易日一片红了。
甚至其中不少公司,去年同一时间也被算在 ChatGPT 概念股里面……
而主角 Sora 在持续刷屏 72 小时后,势头依然不减,还有新能力被不断发掘出来。
比如这段 " 寄居蟹用灯泡当外壳的夜间场面 "。
海浪与沙滩的互动非常细腻,寄居蟹腿上的纤毛也活灵活现。
对比真实拍摄的类似场景照片,也就灯泡没有电源不应该亮这一个明显破绽了。
所以说,Sora 到底算不算理解了世界、掌握了物理规律还有争议。
但说它理解了《我的世界》恐怕没人有意见。
这段 "《我的世界》最华丽 8K 高清材质包 ",连游戏的 UI 都准确且保持稳定,也揭示了训练数据中很可能包含大量游戏画面。
当生成纯现实场景时," 小猫在大雨中的后街寻找遮蔽物 " 让 Sora 开发领队 Tim Brooks 直呼 " 快来个人收养它 "。
另一位领队 Bill Peebles 则发掘出 Sora 生成设计一系列事件的完整故事的能力,在试验中他安排了四个连续事件:
金毛和萨摩耶穿过纽约
出租车停下来让狗狗通过人行横道
它们经过卷饼和热狗摊
最后它们看到百老汇招牌
Peebles 表示 Sora 的表现还远称不上完美,但也算是胜任了。
内测已经三天,Sora 还在不断带给人们新的惊喜。
现在网友们只想拥有一件事,那就是 Sora 访问权限。
与此同时,经过第一波震撼之后的科技圈各方势力也逐渐缓过劲来,纷纷围绕 Sora 展开了自己的行动。
终成圈内外顶流
马斯克是最坐不住的。
一边抱怨自己出钱创办的 OpenAI 从开源,转向盈利。
一边晒特斯拉一年前就可以精准模拟自动驾驶环境的视频了:
展示中,特斯拉可以模拟各种驾驶环境,比如给出直行的指令,模型就能自动生成模拟汽车直行的视频:
同为 AI 生成视频的Pika也迅速跟进,紧急推出 " 文本一致性 " 参数設定功能,可以让 Pika 更贴近 prompt 或者是更有创意:
不出所料,有网友就评论了 " 什么时候会针对 Sora 推出新版本 ":
对于这个问题,Pika 创始人郭文景最近也在接受钛媒体采访时表示 " 已经在筹备直接冲,将直接对标 Sora",不过具体计划暂时还未透露。
此外,音频这边也赶紧跟进了一波,给 Sora 生成的视频配音!
之前爆火的 AI 语音合成初创公司Elevenlabs就做了一段酱婶儿的视频:
英伟达科学家 Jim Fan 也转发点评了一番:
这段音频基于文本提示,但其实应该是同时作用于文本和视频,若要学习精确的视频到音频的映射,还需在潜在空间中模拟一些隐式的物理定律。
更具体一点,要在视频的基础上直接配音,Jim Fan 认为 end2end transformer 必须要关注以下几点问题:
识别每个物体的类型、材质和空间位置;理解物体之间复杂的相互作用;识别环境;从模型的内部存储器中检索物体和周围环境的典型声音模式;运用物理定律来组合和调整声音模式的参数,甚至可以即时合成全新的参数;在复杂场景中,模型需要根据空间位置叠加多个音轨。
国内大伙对 Sora 的讨论也非常热烈。
框架大神贾扬清用 5 个字总结了 Sora —— " 真的非常牛 ",他还从不同角度给出了 4 点短评:
对标 OpenAI 的公司有一大波被其他大厂 fomo 收购的机会;
长线闭源寡头,开源还需要一段时间才 catch up;
从算法小厂的角度,要不就算法上媲美 OpenAI,要不就垂直领網域深耕应用,要不就开源;
infra 的需求继续会猛增。
360 集团创始人周鸿祎这次对 AGI 的看法来了个 180 度大转变:
人类对 AGI 的突破,可能就剩下最后一步了。
他在小红书发布了一段视频,认为 "Sora 生成视频堪比 CG"。
除对 Sora 的效果感到惊讶外,周鸿祎还猜测 Sora 背后技术关键有三:
并不是使用传统的 3D 建模然后再进行渲染,应该还是通过大量训练模拟了人类观察世界、描绘世界、表现世界的能力;
Sora 的训练输入,不仅包含大量视频电影的数据,Sora 不仅能解读出画面中有什么元素,还能理解物理定律;
OpenAI 应该自己产生了很多 3D 内容,利用 3D 模型将物理知识输入给 Sora。
还有其他网友爆出 MSRA 前资深研究员梅涛对 Sora 的看法,其中就讲到 Sora 是一个里程碑式的技术进步。
不过他认为 Sora 要实现商业化还需要解决可控性、Prompt 的挑战," 如果说实现商业化需要做到 100 分(60 分技术 +40 分场景),以往人工能做到 90 分,Sora 的出现只解决了那 60 分,甚至到 75 分 "。
值得一提的是,学术界这边,有消息透露有人已经开始组队复现 Sora 了:
One More Thing
关于 Sora 这个名字的含义,它不像 GPT 代表 " 生成式预训练 Transformer" 一样是技术名词的缩写。
大家纷纷猜测来自日语 " 空 " 的发音,ChatGPT 账号也用一首歌名给出相关暗示。
那么 Sora 到底什么时候能玩上呢?
有网友预测,如果按照 DALL · E3 的发布节奏,2 月 25 日和 3 月 16 日附近,值得期待~
参考链接:
[ 1 ] https://twitter.com/_tim_brooks/status/1759128729908085199
[ 2 ] https://twitter.com/DrJimFan/status/1759287778268025177
[ 3 ] https://twitter.com/model_mechanic/status/1759343673484165262
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>