今天小编分享的社会经验:大模型“周一见”或成常态!深度求索发布V3模型更新,欢迎阅读。
继腾讯元宝 35 天更新 30 次后,今年 3 月堪称见证了大模型领網域技术更迭的 " 忙碌月 "。其中,大模型 " 周一见 " 正成常态。
3 月 24 日周一晚,一如此前技术发烧友预期,深度求索 DeepSeek 再 " 突然 " 发布了模型更新。不过这次更新的并不是外界高度关注的新大模型深度求索 DeepSeek V4 或 R2,而是 DeepSeek V3 模型的更新版。
目前,该开源版本已经上架开源网站,开源版本模型体积为 6850 亿参数。当晚,深度求索微信官方公众号小助手也确认,本次更新属于小版本更新,目前已经在官方网页、App 小程式等入口开放。
新版 V3 究竟有哪些更新?
在周一深夜,发布一小时后迅速吸引来全球用户对其测试体验。
要知道初代 V3 模型是在 2024 年 12 月发布,最出圈的曾以 "557.6 万美元比肩 Claude 3.5 效果 " 的高性价比著称。而更新后的模型由其新的 32KGPU 集群上改进的后训练提供支持。但截至目前,还没有任何关于新版 V3 的能力基准测试榜单出现。
不过,网友对新版 V3 的上手测试显示,在编程能力新版 V3 模型编码能力大幅提升。在提示词测试上,不仅新版 V3 超过自身 R1,甚至与目前号称 " 编程能力最强模型 " 的 Claude 3.7 相比,新版 V3 在编码能力已在接近。这意味着深度求索 V3 编程水平更向 " 专业程式员水平 " 靠拢。
除编程能力,在其他用户的测试中,新版 V3 在多轮对话中体现出了更强的上下文理解能力。
在 " 周一见 " 迎来了新版 V3,备受关注的 DeepSeek R2 或者 V4 模型会在何时发布,目前仍无详细时间。让我们拭目以待,下一个 " 周一见 "。
文|记者 王丹阳
图|深度求索官方微信公众号