今天小编分享的科学经验:谷歌开源大模型Gemma带来了什么,原来“中国制造”的机会早已到来,欢迎阅读。
谷歌罕见 open 的 AI,给开源大模型到底带来了什么?
Gemma从发布到现在已经时过四日,谷歌久违的这次开源,可谓是给全球科技圈投下了一枚重磅炸弹。
在最初发布之际,不论是从谷歌官方还是 Jeff Dean 的发文来看,都强调的是 Gemma 7B 已经全面超越了同量级的 Llama 2 和 Mistral。
在与此前最火热的开源大模型 Llama 2 在细节上做比较,不论是在综合能力,以及推理、数学和编程等能力上,完全属于all win的状态。
科技巨头出品、全面对外开放、免费可商用、笔记本就能跑……各种福利标签的加持之下,近乎让全球的 " 观众老爷们 " 为之雀跃。
而就在最近,不少网友们也开始了对 Gemma 的各种测评。
例如有人就用 ollama 在 Macbook 上跑了一下 Gemma 7B,所做的任务是根据文章开头的文字来判定文章的类型。
并在体验过后给出了评价:
还比较稳定和准确!
还有网友在对 Gemma 和 Mistral 做了对比测试之后发现:
Gemma-7B 确实能正确回答 Mistral-7B 回答不了的问题。
由此种种表现,网友不禁发出感慨:
谷歌打破了开源大模型的格局:形成 Gemma、Llama 和 Mistral 三足鼎立之势。
虽然成果足以令人振奋,但似乎在开源大模型这件事上,全球的目光都还是聚焦在了国外 " 顶流 " 们的身上。
随即而来的一个问题便是:
中国开源大模型,怎么样了?
在开源大模型领網域,除了欧美主流科技巨头之外,中国 " 选手 " 也是长期占有一席之地。
那么随着 Gemma 的问世,在榜单排名这件事上,是否又掀起了些许波澜?
结果是有点意外的——
在 HuggingFace 的开源大模型排行榜里,Gemma 排在了 7B 预训练模型的第三名:
第一名和第二名均被国产大模型选手包揽——InternLM2(书⽣ · 浦语 2.0),由商汤科技和上海 AI 实验室等部門联合打造。
那么新晋开源顶流 Gemma,是在哪些细节上失分的呢?
在看完平均得分情况之后,我们继续来看下细分赛道的情况。
首先是在综合能力(General)上,InternLM2-7B 的得分为 65.8 分,略高于 Gemma-7B。
其次是在推理能力(Reasoning)的 2 个基准中上,InternLM2-7B 拿到一胜一平的成绩。
接下来是数学能力(Math),同样是 2 个基准,InternLM2-7B 在 GSM8K 评测基准中大幅超过 16 分。
最后是编程能力(Code),InternLM2-7B 则是高出了整整 10 分。
若是将 Llama-2 7B 也放进来,那么 InternLM2-7B 则是在各项做到了完胜。
不仅如此,即便是拿 7B 的 InternLM2 和更大体量的 13B Llama-2 做比较,在各项细抽成绩中依旧是完胜。
更直观一些,InternLM2 和 Gemma 之间的性能比较如下:
意外吗?其实也并不意外。
因为国产开源大模型在 Gemma 发布之前,就已经在各种榜单中站稳了一席之地,而且还不是昙花一现的那种。
例如 InternLM2 就是于今年 1 月 17 日 " 出道 ",2 种参数规格、3 种模型版本,共计 6 个模型,全部免费可商用:
InternLM2-Base(7B、20B)
InternLM2(7B、20B)
InternLM2-Chat(7B、20B)
当时在与全球众多 7B 量级选手的同台竞技中,InternLM2 便以 " 大圈包小圈 " 的姿势在性能上取得了一定的优势。
而且在与 ChatGPT 的比较过程中,在重点能力上,例如推理、数学、代码等方面是超越了 ChatGPT 的。
比如 InternLM2-Chat-20B 在 MATH、GSM8K 上,表现都超过 ChatGPT;在配合代码解释器的条件下,则能达到和 GPT-4 相仿水平。
InternLM2 还支持 200K 超长上下文,可轻松读 200 页财报。200K 文本全文范围关键信息召回准确率达 95.62%。
例如在实际应用过程中,将长达 3 个小时的会议记录、212 页长的财报内容 " 投喂 " 给它,InterLM2 可以轻松 hold 住。
在不依靠计算器等外部工具的情况下,可进行部分复杂数学题的运算和求解。
例如 100 以内数学运算上可做到接近 100% 准确率,1000 以内达到 80% 准确率。
如果配合代码解释器,20B 模型已可以求解积分等大学级别数学题。
如何做到的呢?我们从研究团队了解到,其所采取的策略关键并非是卷大模型的参数,而是在数据。
在团队看来,提炼出一版非常好的数据后,它可以支持不同规格模型的训练:
所以首先把很大一部分精力花在数据迭代上,让数据在一个领先的水平。在中轻量级模型上迭代数据,可以让我们走得更快。
团队为此开发了一套先进的数据清洗和过滤系统,核心工作分为三个关键部分:
多维度数据价值分析:该系统通过评估数据的语言质量和信息密度等多个方面,对数据的价值进行全面分析和提升。例如,研究发现论坛网页评论对模型性能的提升作用有限。
基于高质量语料的数据扩展:团队利用高质量语料的特性,从现实世界、网络资源和现有语料库中收集更多相关数据,以进一步丰富数据集。
目标化数据补充:通过有目的性地补充语料,特别是强化世界知识、数学逻辑和编程代码等领網域的核心能力,以提升数据集的深度和广度。
如此 " 三步走 " 的系统设计便让数据集得到了相应的优化,让它更加丰富、准确,并更好地支持模型的训练和应用。
当然,InternLM2 的开发不仅仅局限于提升模型的基础性能,同时也紧跟当前的应用趋势,对特定的下游任务进行了性能增强。
例如,针对当前流行的超长上下文处理需求,团队指出,在工具调用、数理推理等应用场景中,需要处理更长的上下文信息。
为了应对这一挑战,InternLM2 通过扩大训练視窗的容量和改进位置编码技术,同时确保训练数据的质量和结构化关系,成功地将上下文視窗的支持能力扩展到了 20 万个 tokens。
如此一来,不仅提高了模型处理长文本的能力,也优化了整体的训练效率。
这便是 InternLM2 从 " 出道 " 至今,即便是面对顶流 Gemma 依旧能够稳坐榜首的原因了。
结语
最后,回答一下文章最开始的那个问题——
Gemma 给开源大模型到底带来了什么?
首先,是趋势。
自从大模型的热度起来之后,对于开源和闭源的话题也是一直在持续。
OpenAI 的 ChatGPT、GPT-4 等,所代表的就是闭源大模型,其所具备的实力也是有目共睹;而此前 Llama、Mitral 等则是开源大模型的代表。
谷歌作为 AI 巨头,在此前大模型巨头混战中是略显疲态的,毕竟作为对标产品的 Gemini,似乎也并未能撼动 OpenAI 的领先地位。
而此次谷歌罕见的开源了大模型、发布 Gemma,则是要以此来对标开源界的其它选手,并且从目前公布的成绩来看,谷歌是取得了一定的优势。
同时,从侧面也反应出了,开源项目在大模型的发展中有着重要的作用。
其次,是信心。
或许很多人对于大模型的发展依旧停留或关注于国外主流的科技巨头。
但从各种榜单、评测的数据上来看,中国的大模型同样也具备很强的竞争实力。
不仅仅是 InternLM2-7B 的开源模型,在不同参数体量的模型上,都有国产大模型选手在加入竞争。
而且从结果上,已然是做到了中文和英文整体能力上的全面超越。
从这一点上来看,Gemma 的发布不仅是在开源大模型界新添强势玩家这么简单,更是给中国开源大模型,甚至整个 AI 大模型行业都带来了一份信心。
总而言之,从开年到现在短短 2 个月的时间,我们能够非常直观感受到的一点便是大模型的战场是越发的热闹。
不论是国内国外、开源闭源,亦或是各种多模态,从 Gemini 到 Gemma,从 Sora 到 Stable Diffusion 3,各大科技厂商你追我赶的态势愈演愈烈。
但有一点是较为明确的,那就是所有发布都在趋向于推理,趋向于如何把技术用起来。
因此,或许大模型在接下来的进程中,谁能让自家的产品" 快好省 "地用起来,谁就能笑到最后。