大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

上下文长度越卷越离谱,我们真需要这么多token么?

2024-03-01 简体 HK SG TW

今天小编分享的互联网经验:上下文长度越卷越离谱,我们真需要这么多token么?,欢迎阅读。

经常关注大模型的朋友一定听过一个词,叫做 " 上下文視窗 "。比如硅星人 Pro 的文章《模型上下文长度达到 10000000,又一批创业者完蛋了?》就提到了,谷歌 Gemini 1.5 Pro 的上下文长度达到了 100 万个 token,如果让它来写哈利波特,可以一口气从哈利波特去 9 又 4 分之 3 车站写到小天狼星为了救哈利而牺牲。

对于大语言模型来说,上下文視窗是指在训练和应用大语言模型时,模型能够同时考虑并处理的输入序列的最大长度。这个視窗限制了模型对文本中连续标记之间依赖关系的理解范围。对于 LLMs 而言,大的上下文視窗是极其重要的特征,因为它允许模型在处理长文档、对话历史或复杂语境时保持连贯性和理解力。如果上下文視窗太小,当输入文本超出这一視窗限制时,模型可能无法准确捕捉到远距离词语间的关联,从而导致性能下降。

2024 年 2 月 26 号,微软看到谷歌 Gemini 1.5 pro 那 100 万个 token 以后坐不住了,他们发表了一篇新的论文,提出了一个叫做 LongRoPE 的方法,能够在保持原始短上下文視窗性能的同时,将预训练 LLMs 的上下文視窗扩展到令人印象深刻的 200 万个 token。

RoPE 是 Rotary Position Embedding(旋转位置嵌入)的缩写,这是一种在 transformer 模型中用于编码输入序列中 token 位置信息的方法,它最大的作用就是让模型能够知道各个 token 之间的顺序关系。那么 LongRoPE 的含义呢,就是 RoPE for long text,即给长文本准备的旋转位置嵌入。

LonRoPE 的核心逻辑是通过改进位置插值方法,使得在扩展上下文視窗时仍能有效利用 RoPE 的特性。LongRoPE 本质上来说是一种微调,分为下面下面三个步骤:1. 发现并利用了位置插值中的两种非均匀性,通过高效搜索提供了更好的微调初始化条件,并使得在无需微调的情况下能实现上下文視窗 8 倍的扩展;2. 引入了渐进式扩展策略,首先针对 25.6 万 token 长度的文本对大语言模型进行微调,然后在已微调的扩展大语言模型上进行第二次位置插值,从而达到 204.8 万 token 的上下文視窗;3. 对于恢复原始较短上下文視窗的性能,LongRoPE 会在 8000 长度上重新调整参数,确保即使在非常长的上下文視窗設定下,模型也能在较短序列上的表现不下滑。

我们可以这样来理解,它的技术原理是通过精巧地处理位置嵌入,依据实际情况灵活调整和优化,既拓宽了模型处理长文本的能力,又保证了模型在应对短文本时同样具备优秀的性能。那么开发 LongRoPE 的意义在久于允许大模型在无需大量的额外训练和计算资源的情况下,能够处理超长文本。

所以 Longrope 最大优势并不只是说能扩大上下文視窗,而是不需要额外训练,不需要多配备硬體,仅仅使用 1000 步微调以内就能实现这 200 万个 token 的扩展。

我们真的需要那么多 token 吗?

那你可能就要问了,微软研究出这个 200 万 token 的上下文視窗技术图啥呢?别说日常对话了,哪怕是拿本小说来,估计也很难满足 200 万个 token。

咱们文章开头也讲过了,上下文視窗它就是同时考虑并处理的输入序列的最大长度。而在 transformer 架构中的自注意力机制中,上下文視窗大小决定了模型可以同时捕捉到多远距离的词语依赖关系。粗暴点来理解,上下文視窗完全可以被当成模型能够容纳多少文本的一种体现。就跟邮箱的油表一样,上下文視窗增大时,意味着它可以理解并基于更长的文本片段进行推理。

例如,如果一个大语言模型具有 20 万 token 的上下文視窗长度,它可以一次性处理大约 35 万个汉字的上下文信息。那么 200 万个 tokens 的上下文視窗长度,大约就是 350 万字,要知道一本囊括了保尔柯察金一生的《钢铁是怎样炼成的》才不到 40 万个字而已。

在大模型领網域,上下文視窗不应该是 " 你能炼一吨,咱炼一吨半 ",因为增加上下文視窗也意味着模型的计算量和内存需求将大幅增加,因此在实际应用中必须权衡上下文視窗的大小和计算资源的有效利用。

如果只是增加计算资源消耗倒还好说,毕竟硬體上下血本就完事了,没有花钱的不是,但过分追求上下文視窗还会导致一个问题,叫做 " 过拟合(overfitting)"。过拟合是说模型在训练数据上表现很好,但在未见过的测试数据上表现较差的现象。也就意味着模型过度适应了训练数据的特性,将训练数据中的噪声或随机变化也当作了真实的模式,从而导致模型在新数据上泛化能力较差。

过拟合通常发生在模型复杂度较高时,例如参数过多或特征过于丰富的情况下。过度复杂的模型可能会在训练数据中学习到过多的噪声或细节,而忽略了数据中的真实规律。而目前来看,LongRoPe 还未正式启用,因此我们也没办法清楚它是否发生了过拟合,不过照着 200 万 token 大军的势头看,这个概率并不低。

还没完,模型在运行过程中,它是需要在内存中发生并行计算的。如果上下文視窗过大,与之对应的内存消耗也就会增加。所以综合考量,无论是大模型的开发者,还是大语言模型的微调者来说,增加上下文視窗是没问题的,然而过分追求超长上下文視窗,并没有特别重大的意义,反倒还会产生未知的结果。

说了这么多,其实有一个同样很重要的原因,是各大厂商今天都在卷长度的重要 " 动机 " ——因为大语言模型没有特别明确的性能评分标准,只有一个知识库的评分标准,因此透过上下文視窗本身的数学表示,就会给人一种 " 数字越大,模型越厉害 "。也许是时候回归本初,想想最初增加上下文視窗的意义是什么,让大家回到增加模型性能的初心上来了。

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們