大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

本周AI不得了!OpenAI的Sora“模拟世界”、Gemini 1.5“10M上下文”、Mistral的开源新贵同日出现

2024-02-18 简体 HK SG TW

今天小编分享的互联网经验:本周AI不得了!OpenAI的Sora“模拟世界”、Gemini 1.5“10M上下文”、Mistral的开源新贵同日出现,欢迎阅读。

昨天是 AI 发展的其中一天,但似乎所有事情都同时发生。简而言之,你需要了解这些内容:

OpenAI 发布了他们的视频生成模型 Sora。它非常出色。

谷歌发布了 Gemini 1.5 Pro,性能接近 1.0 Ultra,并且文本长度几乎无限(最多可达 1 千万 tokens)。

在 ChatBot Arena 平台中发现了一个名为 Mistral-Next 的模型,暗示其即将发布。初步测试表明,它至少是一个可靠的模型。

这篇文章将尽量从技术角度总结我们所知道的情况。

Sora:OpenAI 的文字视频模型

我们早就知道它会出现。但我还是被它的出色表现震惊了。你需要看一些人工智能生成的视频。OpenAI 发布了 Sora,山姆 · 奥特曼花了一整天时间在推特上分享其神奇世代的视频。当天晚些时候,OpenAI 发布了一篇技术性稍强的博文,证实了人们所关注的大部分传言。

简而言之,Sora 是视觉转换器(ViT)和扩散模型的组合。视觉转换器和 Sora 数据处理背后的核心理念似乎是将视频片段嵌入一个名为 "patch" 的潜在空间,然后将其作为一个 token。

引自 OpenAI 博客:

Sora 是一个扩散模型;在输入噪声 patches(以及文本提示等条件信息)的情况下,经过训练,它可以预测原始的 " 干净 "patches。重要的是,Sora 是一个扩散变换器。变换器在语言建模、计算机视觉和影像生成等多个领網域都表现出卓越的扩展特性。

在这项工作中,我们发现扩散变换器作为视频模型也能有效扩展。

博文中提到了很多有趣的东西,但都不是真正重要的东西,比如模型大小、架构或数据。对我来说,数据几乎肯定是一大堆 YouTube 和一些程式化生成的视频(来自游戏引擎或其他自定义的东西,稍后详述)。需要知道的事情:

他们在多种分辨率(大多数多模态模型都固定在 256x256 等分辨率)上进行训练,包括 1920x1080p 横向或纵向分辨率。

" 我们将重新字幕技术引入 DALL-E 3 影像生成器,应用于视频 "。这包括两点:

让语言模型对提示进行调解对于获得良好的输出结果仍然非常重要。除非有必要,否则人们不会这么做。我认为这最终会通过更好的数据控制来解决。

更重要的是,这与他们的 " 高度描述性字幕机模型 "(将视频转换为文本)相关联,而这是为数据提供标签所必需的。这证实了基本的 GPT4 可以做到这一点,或者 OpenAI 还有许多其他最先进的模型隐藏在里面。

Sora 还能通过接收影像输入来完成动画、编辑和类似操作。

Sora 可以通过视频输入进行视频编辑。

推特上的一个 ML 的匿名账户挖出了一篇类似架构的论文。我将架构图复制如下。

Sora 最令人印象深刻的特点是它能够逼真地模拟物理世界(OpenAI 将其描述为 " 新兴的模拟能力 ")。在此之前,还没有任何文字视频模型能与之相媲美。几周前,谷歌的 Lumiere 刚刚问世,给人留下了深刻印象,但与 Sora 相比,它显得非常逊色。

有很多传言说,神经辐射场(NeRFs)是一种流行的影像 3D 重构技术,它可能会根据视频的特征(就像物理世界一样)在引擎盖下使用,但我们没有明确的证据证明这一点。我认为这是程式生成的游戏引擎内容。仅仅使用游戏是不够的,你需要一种生成数据多样性的方法,就像所有合成数据一样。我们在 HuggingFace 为 RL 代理构建的数据就是一个很好的例子。数据的多样性可能会在生成过程中释放出另一个层次的性能——我们在大型模型中经常看到这种情况。

所有关于 Pika 和 Runway ML(其他流行的 ML 视频初创公司)死亡的评论都完全是夸大其词。如果进步的速度如此之快,那么我们还有很多转弯。如果最佳模型来得快去得也快,那么最重要的就是用户接触点。这一点在视频领網域还没有建立起来,而且,MidJourney 还在依赖 Discord(不过,用户体验还很不错)!

Gemini1.5:谷歌的有效无上限文本长度

在 Sora 发布前几个小时,谷歌已经发布了 Gemini 的下一个版本,令所有人震惊。这可能会给人们使用 LLMs 的方式带来的直接变化,可以说比 Sora 视频更有影响力,但 Sora 的视觉演示质量令人着迷。

总结:

Gemini 1.5 Pro 的性能接近 Gemini 1.0 Ultra,但部門参数效率更高,并增加了 混合专家系统(MoE)作为基本架构。

Gemini 1.5 Pro 文本长度可扩展至 1 千万。作为参考,当 OpenAI 将 GPT4 增加到 128k 时,这就是件大事。一千万几乎没有任何意义——它又不是变形金刚。但它能接收的信息量远远超过普通 ChatGPT 用户的想象。

谷歌可能找到了某种新方法,将长上下文的架构理念与他们的 TPU 计算堆栈相结合,并取得了很好的效果。据 Gemini 长语境的负责人之一 Pranav Shyam 说,这个想法几个月前才刚刚萌芽。如果以小版本(v1.5)而不是 v2 发布,肯定会有更大的发展空间。

作为一个思想实验,围绕 Gemini 1.5 的交流告诉你,你可以在模型的上下文中包含整个生产代码库(参见 Google 提供的示例)。这对于那些还没有流行到会为下一个 GPT 版本而被搜刮成百上千次的库来说,确实能改变它们的命运。作为一款企业工具,它价值连城。他们将 一千万个 tokens 可视化为多少内容,这可是一大笔财富。想想 3 小时的视频或 22 小时的音频在没有分割或损失的情况下被一个模型处理。

需要明确的是,付费的 Gemini 用户很快就能使用 100 万文本长度(类似于 ChatGPT plus 计划),而技术报告中也提到了 1000 万視窗。我认为,目前保留它更多的是出于成本考虑。任何模型的计算量都很大。

这个关于上下文长度的数字让我伤透了腦筋。最长的上下文視窗更精确。

看到这一点,我们就会明白,这个模型并不是一个变形器。它有办法通过非注意力模型路由信息。很多人提到了 Mamba,但更有可能的是谷歌利用优化的 TPU 代码实现了自己的模型架构。Mamba 附带特殊的 Nvidia 内核和集成。

这让我对未来感到非常兴奋,因为在未来,我们与之互動的模型会将计算分配给专门从事不同任务的子模型。我预计,如果我们看到 Gemini 1.5 Pro 架构图,它会更像一个系统,而不是普通的语言模型图。这就是研发阶段的样子。

著名的快速工程师 Riley Goodside 曾分享过这种类型的变化:

这里有很多含义。既然可以 100K-shot,为什么还要 [ 监督微调 ] ?如果有了语法和字典,它就能翻译 Kalamang 语,那么正确的词语又能教会它什么呢?

从根本上说,这意味着我们现在可以直接告诉模型如何在上下文中行动。微调不再需要能力。我认为这将会产生协同效应,而且当推理达到一定规模时,微调的成本会更低,但这还是令人兴奋的。

更多信息,请参阅谷歌 Gemini 1.5 博客文章或技术报告。

最后,Perplexity 公司的首席执行官在接受采访时说,谷歌把他想聘用的人的待遇提高了四倍。这太疯狂了,我不知道这对谷歌来说是看涨还是看跌的信号。

Mistral-next: 另一种有趣的发布方式

如果这还不够的话,还有人告诉我,在 LMSYS 竞技场上,还有另一款 Mistral 型号在偷偷地聊天。我听说过另一款机型即将推出的传言,但这款机型显然更加真实。基本测试表明它是一款强大的机型。当然,Twitter 的暴民们现在会去举办更多的 vibes-evals 活动,但 Mistral 会很快告诉我们的。我猜这就是他们基于 API 的 GPT4 竞争对手。

原来它是一周前添加的,所以隐藏得很好。

本文主要翻译自 Interconnects 文章《OpenAI ’ s Sora for video, Gemini 1.5's infinite context, and a secret Mistral model》,原文作者 Nathan Lambert

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們