今天小编分享的互联网经验:和Gemeni 1.5 pro在一起的第一周:一次处理80万汉字!强过GPT4?,欢迎阅读。
上周,在 Sora 震飞 AI 圈之际,谷歌于同日 " 悄悄 " 发布了新一代人工智能大语言模型(LLM)Gemeni 1.5pro。
前有 Open AI 宣布开发新产品并推出 GPT 记忆功能,后有 Sora 重磅登场,虽然被 Open AI 抢了番位,但 Gemini 1.5 Pro 也不容小觑。
在一众 " 杀招 " 之外,Gemini 1.5 Pro 最亮眼的,还是在跨模态超长文本理解能力上实现的 " 巨大飞跃 "。据悉,Gemini 1.5 Pro 的能够稳定处理的信息量高达 100 万个 tokens,这相当于 1 小时的视频、11 小时的音频、超过 3 万行代码或 70 万个单词。
科技网站 Every 的记者 Dan Shipper 在上周四测评了 Gemini Pro 1.5,与其共处一周后,他给出结论:该新一代大模型要比此前谷歌发布的所有型号要 " 好得多 "," 是一项重大成就 "。
大 " 杀器 ":超长上下文視窗
在 Shipper 看来,Gemeni 1.5 pro 的 " 重大 " 主要缘于两点:
一是 Gemeni 1.5 pro 拥有 " 史上最长 " 上下文視窗。
上下文視窗(context window)是指语言模型在进行预测或生成文本时,所考虑的前一个词元(token)或文本片段的大小范围。
在语言模型中,上下文視窗对于理解和生成与特定上下文相关的文本至关重要。上下文視窗越大,可以提供更丰富的语义信息,帮助模型据此预测或生成更连贯、准确的文本。
正如此前提及,Gemini 1.5 Pro 能够单次处理 100 万个 tokens,与之相比,GPT-4 Turbo 只能支持单次处理 12.8 万个 tokens。
更直观点,换算成汉字的话,100 万个 tokens 约等于 80 万个汉字,相当于 Gemini 1.5 Pro 能一次性处理一部红楼梦的信息量——几乎可以理解为无上限。
华尔街此前援引报道称,在 Gemini 1.5 Pro 发布前,全球公开可用的 LLM 中,最大的上下文視窗来自 Claude 2.1 的 20 万 tokens,Gemini 1.0 Pro 是 3.2 万 tokens ——此次 Gemini 1.5 已在視窗长度上成功碾压所有大模型。
二是 Gemeni 1.5 pro 可以稳定处理整个上下文視窗。
通过测评,Shipper 发现 Gemeni 1.5 pro 在处理巨大任务量时仍表现出色,这和此前的型号相比是一个 " 巨大飞跃 "。
Shipper 表示,此前的 LLM 性能存在这样的缺陷:当输入的文本任务量接近其上下文視窗上限时,LLM 的性能就会大打折扣——甚至忽略部分内容或遗漏关键信息。
但 Gemeni 1.5 pro 不会出现这类情形。因其对上下文視窗进行了改进,使其更智能,意味着你无需搭建任何基础架构就能 " 开封即用 "。
首发测评实录
作为第一波上手测评 Gemeni 1.5 pro 的用户,Shipper 撰文详细记录了他对 Gemeni 1.5 pro 的测评,以及其与 GPT-4 的 " 对照实验 "。
1. 文本理解和推理能力
Shipper 分别向 Gemeni 1.5 pro 和 GPT-4 提问了一本由 Chaim Potok 于 1967 年出版的小说《选民(The Chosen)》中的情节。
GPT-4 的第一个答案完全错误,随后 Shipper 上传了这本小说的纯文本全文,GPT-4 在检索到相应位置后给出了正解。
不过,由于上下文視窗过小,GPT-4 在后台执行检索代码时,将文本内容分称了若干个 " 文本块 ",再在其中检索用户提问对应内容——这也意味着,在回答这类问题时,GPT-4 有多智能无关紧要,重要的是 GPT-4 能不能检索到对应文本。
而 Gemeni 1.5 pro 可以一次性读完整本书,并提供了 GPT-4 无法提供的关键情节。
如果说之前你还对 " 超长的上下文視窗 " 这个概念一知半解,那么,这项 " 对照实验 " 就直观地呈现了上下文視窗的长度是如何帮助 Gemeni 1.5 pro 在文本理解和检索上 " 吊打 "GPT-4 的。
2. 大型项目代码、文本生成能力
Shipper 指出,Gemeni 1.5 pro 还解锁了数百个新功能,这些功能难以用 ChatGPT 或自定义的 GPTs 来完成。
比如,Shipper 向 Gemeni 1.5 pro 询问,如果想要在现有代码库中集成 GPT-4,应该在哪里操作。Gemeni 1.5 pro 不仅在代码库中找到了正确的位置,还直接编写了集成所需的代码。
Shipper 表示:
" 这极大地提高了开发人员的生产力,尤其是在大型项目上。"
为了检验 Gemeni 1.5 pro 的生成能力,Shipper 还要求 Gemeni 1.5 pro 给自己此前的文章增加一段 " 轶事 " 作为开头。
结果,Gemeni 1.5 pro 给出了一个 " 近乎完美 " 的文本段落,既充分理解了文章主旨,而且段落设计甚至颇具个人色彩—— Shipper 称其内容 " 来自我自己的浏览记录和文字品味 "。
不过,这个测试也暴露了 Gemeni 1.5 pro 的缺陷——这则 " 轶事 " 后来被证实是虚构的。Shipper 对此表示:
"Gemeni 1.5 pro 并不完美,你需要仔细检查它的工作成果。"
此外,Shipper 还指出自己的测评中存在一些限制因素,有两点需要注意:
一是 Shipper 测评的是 Gemeni 1.5 pro 私人测试版本,后续版本表现可能因其高昂的成本而有所出入;
二是 Gemeni 1.5 pro 在实际运行中速度 " 相当慢 ",许多请求需要至少 1 分钟才能得到反馈。因此 Shipper 认为,Gemeni 1.5 pro 不适合作为目前 LLM 的直接替代品,更适合用来处理 ChatGPT 等大模型无法处理的繁重任务。
OpenAI 应该感到威胁了
纵览 Gemeni 1.5 pro 带来的数百项新功能,似乎所有都离不开我们最初提到的核心概念:上下文視窗。
因为只要上下文視窗规模足够大,那么无需再输入检索代码就能获得更准确、强大的结果。
从这个角度来说,Gemeni 1.5 pro 无疑是 Sora 之外对 AI 圈而言另一个 " 王炸 " 级别的存在。Shipper 在一年前就曾表示:
"Gemini 就是最好的例子。凭借其大型上下文視窗,您收集的所有个人数据都触手可及,可以在您需要的任何任务中在正确的位置、正确的时间部署——个人数据越多越好,即使是杂乱无章的数据。"
作为竞争对手的 OpenAI,仍需要迎头赶上。Shipper 认为," 检索 " 将成为 LLM 的组成部分,该功能在提供数据库 / 数据存储、分块 / 搜索信息方面都起着重要的作用。
虽然当上下文視窗足够大时,检索功能的价值可能会有所削弱,因为用户可以输入所有请求。但 Shipper 仍认为,从长远角度来看,检索功能仍然十分重要。
和手机内存一个道理。就算以后,100 万个 tokens 已成常态,用户依然会觉得 " 不够用 "。届时,检索的价值不外乎从 " 百里挑一 " 演变成了 " 万里挑一 "。