今天小编分享的科技经验:碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来,欢迎阅读。
这两天 hugging face 的榜单出现了一个异数。一个名为 Falcon 40B 的模型,突然成为了 hugging face" 开源 " 大模型排行榜的第一名。
这一成绩直接将一众大咖加持的开源的模型踩在脚下,包括但不限于扎克伯格同学旗下的 LLaMA、新晋明星独角兽 Stability AI 等公司。其中,LLaMA 的模型规模甚至更大,达到了 65B ——比 Falcon-40B 大出了 50%。
按照国际通用惯例,网友们少不了又要拉踩一把扎克伯格。
Hugging Face 过去一直被认为是大模型领網域 GitHub,在人类大模型的开源事业的道路上不遗余力,被一些观察者认为是 OpenAI 最具潜在挑战能力的平台。因此 Hugging Face 的榜单,被从业者给予了很高的参考价值。
按照 Hugging Face 方面表示,其整个榜单使用 Eleuther AI Harness 的评估框架,被抽成四个标准:
25 个小样本的推理逻辑测试(ARC:AI2 Reasoning Challenge)、10 个样本的尝试推理测试(HellaSwag)、5 个样本的多任务准确性测试(MMLU)以及诚实测试(TruthfulQA)
而在全部四项打分中,如图一所示,除了诚实测试表现相对一般外,其他三项都大幅领先对手。而在新推出的 instruct 版本中,诚实性能力也跟上来了。
Falcon 备受外界关注,原因主要有几点。
一方面,如果仅以这个榜单数据来看,Falcon 相比于友商的提升幅度很大。LLaMA-65B 之后的排序的分差往往在 0.3 分以内,但 Falcon-instruct 直接提升了 3.4 分。
另一方面,Falcon 与马斯克的火箭重名,但其实是目前为数不多的非西方国家实验室开发的开源大模型产品。Falcon 背后的研发方来自阿联酋的阿布扎比技术创新研究所(TII),这也是中东首个世界顶级的大模型产品。
TII 的背后则是阿布扎比先进技术研究委员会 ( ATRC ) ,因此是阿联酋政府官方扶持技术创新项目。
而根据阿联酋通讯社的报道,Falcon-45B 使用了 1 万亿个 token 进行训练,可以用更少的训练计算能力实现更优的效果,其仅相当于 OpenAI GPT-3 训练计算的 75%,DeepMind Chinchilla 人工智能的 40%,谷歌 PaLM-62B 训练计算的 80%。
阿联酋通讯社进一步表示,作为开源的大模型工具,Falcon-45B 的出现:
" 强化了阿联酋作为全球 AI 领导者的角色 "。
目前来说,Falcon-40B 虽然是开源大模型的第一名,但是和 " 不 Open" 的 OpenAI 相比,还有相当大的差距。而在越来越公司对开源保持谨慎态度的情况下,Falcon 获得 " 开源大模型第一 " 其实也算是 " 捡了个漏 "。
不过很快有从业者发推特质疑 Hugging Face 的评价体系。
有 Inflection AI 员工发推认为 Hugging Face 得出的数据与论文的评分有一定的差异。在这条质疑下面,前特斯拉 AI 负责人、OpenAI 元老级人物(founding member)Andrej Karpathy 跟进评论:
" 这就是我目前避免评论 falcon 的原因 "。
Andrej Karpathy 曾经是李飞飞的高徒、全球顶尖的 AI 科学家,对 OpenAI 的发展起到了很大的作用,也一手推动了特斯拉自动驾驶项目的发展,可以说是特斯拉 autopilot 之父。
当他对 hugging face 的标准提出质疑时,这并不能被认为是一个轻飘飘的指控。
果然 hugging face 联合创始人 Thomas Wolf 闻风而至,对同行进行了友善的科普,表示他们的使用的评价工具的准确性是可靠的。
这其中诡异的点在于,hugging face 的榜单不是一天发出的,Eleuther AI Harness 也是一个主流的评价体系。但当 Falcon 冲榜后,却出现了两位对评价体系 " 不理解 "、" 不确定 " 的 " 外宾 "。
看来硅谷还不是很适应来自中东的神秘科技力量,对这种 " 新鲜事物 " 条件反射地用审视的眼光去打量。
不过,Falcon-40B 最大的争议或许不是来自于能力,而是来自于其对 " 开源 " 事业的 " 诚心 "。
因为 Falcon 对商业化开源留了一个 " 后手 ",虽然使用者原则上免费,但如果收入超过 100 万美金,依然需要缴纳 10% 的授权费用。
但由于 falcon 的许可证其实部分基于 Apache License Version 2.0。后者来自 Apache 基金会,对商业开源是友好的。那如果 falcon 拿着免费开源的许可協定,未来依然会收取一定的商业化费用,这似乎依然算不上真的 " 开源 "。
大模型确实很烧钱,即便贵如中东土豪,也不希望彻底的开源。
而根据 TII 方面的消息,阿联酋方面预计将很快发布新的 Falcon-108B 的千亿级大模型。
无论是开源和闭源、西方和东方、科技投资和石油资本,届时围绕大模型的科技竞争可能会变得更有意思。
图片来源:网络