大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

兆级长文本,已是一线大模型机构标配能力

2024-03-25 简体 HK SG TW

今天小编分享的科学经验:兆级长文本,已是一线大模型机构标配能力,欢迎阅读。

" 据我了解,国内多个一线大模型机构,都已经突破了兆级的长文本能力。"

以上,是 "2024 全球开发者先锋大会 " 大模型前沿论坛会间隙,上海人工智能实验室领军科学家林达华与量子位的交谈剪影。

林达华,深度学习与计算机专家,香港中文大学教授,他是商汤联合创始人,也是商汤创始人汤晓鸥的学生,是国际上最具影响力的视觉算法开源项目 OpenMMLab 的主导发起人。在大模型时代,他带领了书生 · 浦语 InternLM 开源大模型体系以及 OpenCompass 司南大模型评测体系的研发工作。

林达华预估,第一季度左右,各家都会对大模型上下文視窗兆级能力 " 亮剑 "。

同时,他表达了与月之暗面同样的态度,即大海捞针其实没有那么难。

难的是海里不止一根针,应有无数的碎片化信息藏在各个地方,(大模型)把所有东西串接一起,做比较深层次的结论。

就像读福尔摩斯侦探小说,读完后综合判断凶手是谁——这就不是一个简单的检索问题。

近期,各家大模型于长文本赛道上卷生卷死,但是否应把它作为最主要的方向去打磨,大家有不同的判断。

林达华点出,应该要评估衡量超长文本能力的计算代价," 无损长上下文視窗,每一次响应都是很昂贵的过程,对应用来说,这个性价比是不是最理想的?我觉得值得探讨。"

长文本相关问题只是林达华表达自己思考和见解的一小个片段。

在这场大模型前沿论坛上,他以业界躬身入局者的身份,回望过去 " 群模乱舞 " 的一年,总结出大模型赛道的四点现状:

OpenAI 引领技术潮流,Google 紧紧追赶,Claude 异军突起;

上下文、推理能力、更高效的模型架构是技术探索的重点方向;

轻量级模型崭露头角;

开源模型快速发展,开放生态已成气候。

林达华还表示,大模型时代,技术演进有两股主要的驱动力量:

一是对 AGI 的追求,对 Scaling Law 的信仰;

二是对大模型带来新一次产业变革的憧憬。

除此之外,更详细的回望和前瞻性观点,在林达华口中一一道来。

模型架构:从追求参数到追求更高效的 Scale

Transformer 架构对计算资源的消耗巨大。

前几日的黄仁勋与 Transformer 七子路边对话中,Transformer 作者 Aidan Gomez 语气坚定," 世界需要比 Transformer 更好的东西(the world needs something better than Transformers)"。

业界已经开始从追求参数,过渡转换为追求更高效的规模。

其中,MoE值得关注,业界同时在探索 Mamba 模型等,以低复杂度的注意力架构更高效地处理上下文。

训练数据:从追求数量到寻求规模化构造高质量数据的路径

训练数据包括三要素:

规模、质量、多样性。

在规模方面,早在 ChatGPT 之前,DeepMind 等研究报告已指出训练数据要和模型参数同步增长。

而训练数据的质量对模型水平影响很大,低质量数据对模型可能产生破坏性影响。增强数据的知识密度,能带来更高的训练效率。

此外,好的数据集是非常多样化的,均衡分布在充分大的语义空间中。

互联网语料数据的分布极不均匀,存在大量低水平重复的语言模式,可能带来模型能力的塌缩,"10% 的带有重复模式的数据注入到训练集里,有可能会使得模型降级到原来 1/2 的体量。"

合理的 resampling(重采样)策略能大幅度降低其负面影响。因此,业界也在从追求训练数据数量,过渡向到寻求规模化构建高质量数据。

多模态:多模态融合将成为重要趋势,技术探索仍在路上

多模态融合将成为重要技术趋势,但技术探索仍在路上。

相比语言,多模态模型的训练多了一个重要维度,即影像和视频的分辨率对多模态模型最终的性能表现有重要影响。

如果使用非常高的分辨率进行多模态的训练和推理,模型能够得到巨大提升,但高分辨率会带来高计算成本。

" 如何在高分辨率和合理计算成本之间取得最佳平衡,这为架构研究带来了很大的创新空间。"

智能体:大模型应用的重要形态,但需要核心基础能力的支撑

要让大模型真正进入到应用的场景和生产的场景的时候,它需要跟系统、跟场景、跟里面所有的事情互动。因此,需要给大模型装上手脚,然后就能不断地发出指令做出反馈,这就是一个智能体,这就是场景应用价值的系统。

智能体并不是一个简单的流程化过程。

它需要建立在一个非常坚实的基础模型上,具有很强的指令跟随能力、理解能力、反思能力和执行能力。如果这些能力都不具备,其实串接在一起仍然不然获得你所理想中的那种智能体的能力。

这里面是实验室把智能体具像化,智能体不一定是机器人,它可以是各种軟體系统。

计算环境:云侧还在指数式成长,端侧即将迎来黄金增长期

芯片进入到后摩尔定律时代,未来算力会变成体量的拓展,越来越多的芯片连接在一起,建成越来越大的计算中心,支撑对通用人工智能的追求。

最终瓶颈不再是芯片,而是能源。

现在,小规格的大语言模型已具备较强性能水平和实用可能性,优秀的模型越做越小,可以进入到手机直接运行。

林达华表示,随着端侧算力快速增长,端侧即将迎来黄金增长期,云端协同将成为未来重要趋势,由云侧计算建立天花板,端侧计算将支撑用户使用大规模放量。

国内外差距:和 GPT-4 真正差距是推理能力

国内前列的模型在主客观表现上都超过了 GPT-3.5。

但同时需注意,国内大模型与 GPT-4 的真正差距在于推理能力。

林达华称,特别是随着推理难度的提升,GPT-4 和其他模型,重量级模型和轻量级模型逐渐拉开差距。相比常识推理、演绎推理,归纳推理是差距最大的类型。

在对谈中,林达华还表达了对国内大模型落地的看法。

观国内当下的最大的优势,是应用场景非常非常多。

如果有套生态,能够让大家用大模型去探索在哪些地方能用,哪些地方不能用,在应用上的探索速度和体量可能更快。

不过,他同时表示:

不能因为我们在应用落地上的繁花似锦,就掩盖我们去思考另一个问题——归于最终,还是要提升创新能力和原创水平。

—  联系作者  —

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們