大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

和Gemeni 1.5 pro在一起的第一周:一次处理80万汉字!强过GPT4?

2024-02-28 简体 HK SG TW

今天小编分享的互联网经验:和Gemeni 1.5 pro在一起的第一周:一次处理80万汉字!强过GPT4?,欢迎阅读。

上周,在 Sora 震飞 AI 圈之际,谷歌于同日 " 悄悄 " 发布了新一代人工智能大语言模型(LLM)Gemeni 1.5pro。

前有 Open AI 宣布开发新产品并推出 GPT 记忆功能,后有 Sora 重磅登场,虽然被 Open AI 抢了番位,但 Gemini 1.5 Pro 也不容小觑。

在一众 " 杀招 " 之外,Gemini 1.5 Pro 最亮眼的,还是在跨模态超长文本理解能力上实现的 " 巨大飞跃 "。据悉,Gemini 1.5 Pro 的能够稳定处理的信息量高达 100 万个 tokens,这相当于 1 小时的视频、11 小时的音频、超过 3 万行代码或 70 万个单词。

科技网站 Every 的记者 Dan Shipper 在上周四测评了 Gemini Pro 1.5,与其共处一周后,他给出结论:该新一代大模型要比此前谷歌发布的所有型号要 " 好得多 "," 是一项重大成就 "。

大 " 杀器 ":超长上下文視窗

在 Shipper 看来,Gemeni 1.5 pro 的 " 重大 " 主要缘于两点:

一是 Gemeni 1.5 pro 拥有 " 史上最长 " 上下文視窗。

上下文視窗(context window)是指语言模型在进行预测或生成文本时,所考虑的前一个词元(token)或文本片段的大小范围。

在语言模型中,上下文視窗对于理解和生成与特定上下文相关的文本至关重要。上下文視窗越大,可以提供更丰富的语义信息,帮助模型据此预测或生成更连贯、准确的文本。

正如此前提及,Gemini 1.5 Pro 能够单次处理 100 万个 tokens,与之相比,GPT-4 Turbo 只能支持单次处理 12.8 万个 tokens。

更直观点,换算成汉字的话,100 万个 tokens 约等于 80 万个汉字,相当于 Gemini 1.5 Pro 能一次性处理一部红楼梦的信息量——几乎可以理解为无上限。

华尔街此前援引报道称,在 Gemini 1.5 Pro 发布前,全球公开可用的 LLM 中,最大的上下文視窗来自 Claude 2.1 的 20 万 tokens,Gemini 1.0 Pro 是 3.2 万 tokens ——此次 Gemini 1.5 已在視窗长度上成功碾压所有大模型。

二是 Gemeni 1.5 pro 可以稳定处理整个上下文視窗。

通过测评,Shipper 发现 Gemeni 1.5 pro 在处理巨大任务量时仍表现出色,这和此前的型号相比是一个 " 巨大飞跃 "。

Shipper 表示,此前的 LLM 性能存在这样的缺陷:当输入的文本任务量接近其上下文視窗上限时,LLM 的性能就会大打折扣——甚至忽略部分内容或遗漏关键信息。

但 Gemeni 1.5 pro 不会出现这类情形。因其对上下文視窗进行了改进,使其更智能,意味着你无需搭建任何基础架构就能 " 开封即用 "。

首发测评实录

作为第一波上手测评 Gemeni 1.5 pro 的用户,Shipper 撰文详细记录了他对 Gemeni 1.5 pro 的测评,以及其与 GPT-4 的 " 对照实验 "。

1. 文本理解和推理能力

Shipper 分别向 Gemeni 1.5 pro 和 GPT-4 提问了一本由 Chaim Potok 于 1967 年出版的小说《选民(The Chosen)》中的情节。

GPT-4 的第一个答案完全错误,随后 Shipper 上传了这本小说的纯文本全文,GPT-4 在检索到相应位置后给出了正解。

不过,由于上下文視窗过小,GPT-4 在后台执行检索代码时,将文本内容分称了若干个 " 文本块 ",再在其中检索用户提问对应内容——这也意味着,在回答这类问题时,GPT-4 有多智能无关紧要,重要的是 GPT-4 能不能检索到对应文本。

而 Gemeni 1.5 pro 可以一次性读完整本书,并提供了 GPT-4 无法提供的关键情节。

如果说之前你还对 " 超长的上下文視窗 " 这个概念一知半解,那么,这项 " 对照实验 " 就直观地呈现了上下文視窗的长度是如何帮助 Gemeni 1.5 pro 在文本理解和检索上 " 吊打 "GPT-4 的。

2. 大型项目代码、文本生成能力

Shipper 指出,Gemeni 1.5 pro 还解锁了数百个新功能,这些功能难以用 ChatGPT 或自定义的 GPTs 来完成。

比如,Shipper 向 Gemeni 1.5 pro 询问,如果想要在现有代码库中集成 GPT-4,应该在哪里操作。Gemeni 1.5 pro 不仅在代码库中找到了正确的位置,还直接编写了集成所需的代码。

Shipper 表示:

" 这极大地提高了开发人员的生产力,尤其是在大型项目上。"

为了检验 Gemeni 1.5 pro 的生成能力,Shipper 还要求 Gemeni 1.5 pro 给自己此前的文章增加一段 " 轶事 " 作为开头。

结果,Gemeni 1.5 pro 给出了一个 " 近乎完美 " 的文本段落,既充分理解了文章主旨,而且段落设计甚至颇具个人色彩—— Shipper 称其内容 " 来自我自己的浏览记录和文字品味 "。

不过,这个测试也暴露了 Gemeni 1.5 pro 的缺陷——这则 " 轶事 " 后来被证实是虚构的。Shipper 对此表示:

"Gemeni 1.5 pro 并不完美,你需要仔细检查它的工作成果。"

此外,Shipper 还指出自己的测评中存在一些限制因素,有两点需要注意:

一是 Shipper 测评的是 Gemeni 1.5 pro 私人测试版本,后续版本表现可能因其高昂的成本而有所出入;

二是 Gemeni 1.5 pro 在实际运行中速度 " 相当慢 ",许多请求需要至少 1 分钟才能得到反馈。因此 Shipper 认为,Gemeni 1.5 pro 不适合作为目前 LLM 的直接替代品,更适合用来处理 ChatGPT 等大模型无法处理的繁重任务。

OpenAI 应该感到威胁了

纵览 Gemeni 1.5 pro 带来的数百项新功能,似乎所有都离不开我们最初提到的核心概念:上下文視窗。

因为只要上下文視窗规模足够大,那么无需再输入检索代码就能获得更准确、强大的结果。

从这个角度来说,Gemeni 1.5 pro 无疑是 Sora 之外对 AI 圈而言另一个 " 王炸 " 级别的存在。Shipper 在一年前就曾表示:

"Gemini 就是最好的例子。凭借其大型上下文視窗,您收集的所有个人数据都触手可及,可以在您需要的任何任务中在正确的位置、正确的时间部署——个人数据越多越好,即使是杂乱无章的数据。"

作为竞争对手的 OpenAI,仍需要迎头赶上。Shipper 认为," 检索 " 将成为 LLM 的组成部分,该功能在提供数据库 / 数据存储、分块 / 搜索信息方面都起着重要的作用。

虽然当上下文視窗足够大时,检索功能的价值可能会有所削弱,因为用户可以输入所有请求。但 Shipper 仍认为,从长远角度来看,检索功能仍然十分重要。

和手机内存一个道理。就算以后,100 万个 tokens 已成常态,用户依然会觉得 " 不够用 "。届时,检索的价值不外乎从 " 百里挑一 " 演变成了 " 万里挑一 "。

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們