今天小编分享的互联网经验:红杉等一线资本云集,Hugging Face是怎么成为AI创造力中心的?,欢迎阅读。
前言:这是一档由【创业邦】与聚焦创业投资市场的品牌咨询公司【赋雅 FOYA】联合出品,每周为大家带来有趣、有料的海外独角兽商业故事。
作者丨适道
编辑丨海腰
图源丨 Hugging Face 官方
Hugging Face 是一家估值 20 亿美元的 AI 独角兽,有 24 个投资人,包括 Lux Capital,红杉资本等。
在大模型领網域,我们已经看多了巨额融资,例如 OpenAI 获得微软的百亿美元投资,以及最近 InflectionAI 获得微软和英伟达的 13 亿美元融资。
但是 Hugging Face 这家估值 " 仅 20 亿美元 " 的公司,却是目前 AI 领網域的创造力中心之一。
因为它是一个 " 构建未来的 AI 开源社区 ",被称为 "AI 领網域的 Github ",不仅有人数众多的开发者和产品经理在它的社区里研究和发布自己训练或微调的 AI 模型,客户也超过 5000 个(其中 3000 个是付费客户)。
Hugging Face 的一个重要组成部分是名为 Transformers 的自然语言处理库,其 Transformers 库在 GitHub 上拥有 62000 颗星和 14000 个分叉。这意味着开发人员和数据科学社区正在积极使用和改进 Hugging Face 的技术。
根据 Hugging Face 的说法,Transformers 提供了 API,可以轻松下载和训练最先进的预训练模型。使用预训练模型可以降低计算成本、减少碳足迹,并节省大量训练模型的时间。
Hugging Face 提供了一个免费增值模型,客户可以使用其推理 API,获得基础的 AI 推理能力以及免费的社区支持;其付费服务允许客户轻松训练模型,提高推理 API 的性能等。
它的其他产品和服务还包括 Datasets(应用于多模态模型的数据集),Hub(模型和数据集的托管服务), Tokenizers(高速分词器,帮助把数据转化成模型能理解的形式)等。
这家具有巨大潜力的 AI 开源独角兽,由一位出身法国小镇,在都柏林大学上学的极客 Clem Delangue 创立。正是他在大学时期就具备的极客精神和开源精神,让他在机器学习的道路上探索,并最终形成了 Hugging Face 独特的社区文化和企业文化。
这位非典型的创业者对于 AI 本身有深刻理解,也对创业,开源社区以及融资有自己的意见。
本文结合 Hugging Face 的投资人红杉资本对它的深度报道以及创投圈著名播客 20VC 的主理人 Harry Stebbings 对 Clem Delangue 的深度访谈,梳理出 Hugging Face 从 0 到 1 的进化道路,以及 Clem Delangue 的创业故事。
编者注:20VC 是创投圈著名的播客,主理人 Harry Stebbings 与美国最热门的创投大佬都有过对话。(比如 Benchmark 的 Bill Gurley,ARK Invest 的 Cathie Wood,Accel 创始人 Arthur Patterson/Jim Swartz,以及红杉资本的 Doug Leone。
Hugging Face 的开源精神
起源于创始人 23 岁的大学时代
当 Clem Delangue 还是都柏林大学的学生时,就打造了一个叫 UniShared 的教育平台,它旨在解决学习资源全球性分配不公问题,向全球每个人提供大学教育的好处。这使 23 岁的 Clem Delangue 登上了 TEDx 的讲台。
在 Delangue 的少年时代,他的世界并没有超出法国北部小镇 La Bass é e 的边界。在 Delangue 的家乡,年轻的他探索机会有限,然而互联网的到来打破了这一切。" 当我得到自己的第一台电腦时,它就像一扇窗户,让我看到了更大的世界,那种感觉真是令人震惊。" 他回忆道。
Delangue 的 UniShared 并没有改变世界,但这为他种下了开源和分享的精神种子,也让 Google 向他递上了橄榄枝。不过 Delangue 拒绝了这个机会,因为他觉得在小型、灵活的环境中更加舒适。
他为一家名叫 Moodstocks 的巴黎计算机视觉创业公司工作。Moodstocks 开发一款应用,当用户扫描物品就能立即查看相关评论和电商门户。这是 Delangue 与机器学习的初次接触,他感到十分震撼。
在巴黎的一次会议上,Delangue 偶遇了著名的 Apple 市场营销专家 Guy Kawasaki(他打造了当年十分著名的麦金塔电腦系列广告),Delangue 走近正在签名的 Kawasaki,并向他介绍自己和他的应用。
Kawasaki 对这项技术表示怀疑,尤其是对它随机识别野生物种的能力。因为在当时,机器学习仍需依靠工程师指定相对短暂、固定的定义列表和规则才能获得准确的结果。" 他说的大意是,你无法创建规则来识别世界上所有的物体。"Delangue 回忆道。
于是,Delangue 给 Kawasaki 做了一个演示,他将智能手机对准 Kawasaki 的水瓶。令 Kawasaki 惊讶的是,应用正确地识别了品牌并提取了社交媒体上的评论。
对于 Delangue,那一刻真正的激动人心的不仅仅是他的应用程式的工作效果,更重要的是他看到了机器学习以新方式连接人与人的潜力。
" 两个从未见过面的人——一位法国极客工程师和这位美国硅谷的家伙——他们因为机器学习发现他们其实喜欢同一个饮料品牌。" Delangue 说。毫无疑问,机器学习有巨大的潜力——但是当与用户社区一同开发时,它的潜力更大。
在离开 Moodstocks 之后,Delangue 在一些初创公司中负责产品和市场营销工作。
2016 年,他渴望再次为自己做点什么。在纽约,他与 Julien Chaumond(一位在法国经济部门工作的计算机工程师)联系上了。他认识 Julien 多年,Julien 是一位精英数学家,也是他的朋友,两人长久以来都对彼此有着专业上的认可与尊重。
两人决定一起参加斯坦福大学的在线工程课程,并如他们一贯的方式,聚集了三十多人的学习小组,Thomas Wolf(一位受过科学训练的专利律师)就是其中之一。在课程结束时,Julien 和 Delangue 邀请 Thomas 与他们一起工作。
他们共同设定的目标是解决机器学习领網域中一个最为棘手的问题:利用 NLP 技术,构建一个开放领網域的、会话式的 AI 聊天机器人。一个可以和你谈论任何事情的机器人。Siri 从 2011 年开始出现;Alexa 从 2014 年开始。" 它们极其无聊,只会做生产力相关的事情。我们对建立一个有趣的会话式 AI 感到兴奋。"Delangue 说。
在 2023 年,打造一个人性化的聊天机器人听起来像是一个显而易见的目标。但在 2016 年,依赖深度神经网络进行学习的 NLP 领網域(与过去基于统计、规则的 NLP 相比)还处于萌芽阶段,他们的目标几乎接近科幻。聊天机器人需要整合多种学习模型,进行信息提取,理解情感,并生成答案。
这些模型需要对大量的数据进行训练,而管理这些数据(包括如何收集足够的数据,标记它,托管它)是他们面临的首个重大挑战。正是对不可能的挑战,使得 Hugging Face 走上了当前的轨道,成为全球最大的开源 AI 社区。
从一开始,Hugging Face 团队就展现出属于开源社区特有的慷慨和民主精神,Delangue 和他的联合创始人赋予员工权力,拥有他们自己的产品,为他们的聊天机器人创建和发布功能。
最终,这个机器人活跃在社交网络、移动 APP 上,用户们发送了超过十亿条信息。随着时间的推移,它采用了开源的策略。
发布自定义版本 BERT 模型的尝试
让 Hugging Face 转型开源社区
没有什么时刻能比 Hugging Face 发布其自定义版本的机器学习模型 BERT(一种基于 Transfomer 的变种模型)更好地体现这种精神了。
当时,机器学习的进步常常通过冗杂、理论性的学术文章传达。例如,当 Google 在 2018 年 10 月首次发布 BERT 时,它对大多数用户来说过于复杂,而且 BERT 只在 Google 的 TensorFlow 平台上可用。
Hugging Face 团队希望 BERT 能被更多开发者和用户使用。一周内,他们创建了一个可以使用 PyTorch 机器学习框架的 BERT 工作版本。然后,他们将其转化为开源,并在 Github 上免费赠送给任何想要使用或进一步微调和修改它的人。
" 那是个分水岭时刻 ", Hugging Face 在红杉资本的主管投资人 Pat Grady 说," 人们都在说,‘我的天,我可以使用一个最新的语言模型。’以前这是不可能的。这让 Hugging Face 在当时规模还很小的自然语言处理人群中成为了英雄。" 当 Grady 后来问 Delangue 是什么激发他们把 BERT 发布给全世界的,他被他的答案的直接性所打动。" 我们只是觉得,这是许多人会喜欢使用的东西 ",Delangue 回答。
Delangue 也在与 20VC 主管人 Harry 访谈时聊到了开源对 AI 的重要性:"AI 的大部分进步都是基于开放科学和开源的,因为 AI 的开放,所有人都能用最新算法搭建应用,这形成了非常有趣的正反馈和改进,专家实验的循环使我们能够非常快速的推进 AI 的发展。没有开放科学,没有开源,没有 Google 分享他们的《Attention Is All You Need》论文,分享他们的 Bert 论文,也许 AI 发展的进度会比现在慢很多年。
机器学习社区对自定义版本 BERT 模型的反应证实了 Delangue 多年前在都柏林大学时的感觉——分享知识对每个人都有益。那时,Hugging Face 的使命改变了。Delangue 和他的联合创始人决定开始分享他们在构建聊天机器人过程中学到的关于机器学习的所有东西。渐渐地,他们开始成为工程师、研究人员和机器学习领網域爱好者的首选资源。
在构建他们的 BERT 适配版的过程中,Delangue 和他的团队成为 Transformer 模型的专家。所有的 AI 模型都接受大量数据的训练,Transformer 能从未标记的数据中产生优秀的结果。这种无监督学习形式为数据管理员节省了大量的时间,并使更多的数据可用于训练机器学习系统。
Hugging Face 团队看到了 Transformer 的潜力,并将 Hugging Face 建立为开发它们的首选开源中心。机器学习社区也注意到了这一点——编程者和研究者开始涌向 Hugging Face,他们带来新的洞察和专业知识,使大量的机器学习项目和工具互相影响。
如今,任何想要使用 Transformer 的人都可以在 Hugging Face 访问约 20 万种不同的公共模型。
Delangue 意识到,鉴于这些工具的巨大潜力,理解它们需要一个社区:围绕共同目标、需求和价值观组织起来的人们。
随着他们转向开源,Hugging Face 正开始成为 Delangue 希望能够建立的社区。
红杉资本合伙人 Sonya Huang 说:" 真正善于创建社区的人实际上非常少。Delangue 理解用户——他就是用户——并且他对草根社区有直觉。他以极其真实的方式培育它。"
Huang 还被 Delangue 展现出来的开源精神所打动。她指出,Delangue 没有雇佣专职社区经理与 Hugging Face 的用户接触,而是自己做这件事,经常在 Twitter 上发布 bug 修复信息,与超过 1000 名 AI 研究人员和追求生物技术、影像和语言处理领網域 AI 突破的 10000 多家公司一起解决功能问题。
至今,Hugging Face 不仅没有单一的社区经理,还期望其 160 名员工每个人都积极参与这个在线社区。" 我们觉得如果我们开始拥有社区经理,那就是将所有成员都应负的责任外包出去。" Delangue 说。为此,每个员工都可以访问公司的官方 Twitter 和 LinkedIn 账户。如果 AI 的未来要依赖众包,Delangue 正在确保 Hugging Face 将自己定位为众人的来源。
今天, Hugging Face 社区的庞大规模推动了其战略地位的惯性,使它成为机器学习的进化策源地,例如,视觉大模型 Stable Diffusion 选择将其模型、数据集和演示发布到 Hugging Face 时,它激发了用户引领的活动,修改和改进模型(在他们的演示空间里产生了如 " 一个橡皮鸭在讲台上发表演讲 " 和 " 在被辐射的皮卡丘 " 等杰作)。
2023 年 3 月,Delangue 在推特上宣布他将在即将到来的旧金山之行中与 Hugging Face 的用户举行一个临时聚会。在几小时内,超过 400 人使用他在推特上分享的密码 ossftw(开源軟體永远胜利)进行了注册。
到了正式举行时,它已经赢得了 "AI 的伍德斯托克 " 的称号。大约 5000 人(和三头羊驼)参加了活动。从活动的视频中,你可以看到一种类似于狂欢派对与机器人竞赛交叉的氛围。AI 公司拥挤在摊位中。其中一家,在几天前的黑客马拉松中组建的 AI 教育公司,在此活动上进行了公开发布。
Delangue 和一个身穿亮黄色紧身衣,身体是一个巨大的 Hugging Face 表情符号的吉祥物跳舞。他向推动 AI 前进的每一个人(所以,基本上是全场的人)表示感谢。" 这个活动是对开源力量的庆祝,"Delangue 告诉他们。" 记住,在 AI 领網域,我们所处的位置全都归功于开放科学和开源。"
AI 原生创业公司将颠覆旧有的公司
在短时间内,人工智能已经疾速发展。大型语言模型已经从帮助 Gmail 为用户提供建议的简短回复的后台技术,演变成了一些更奇妙(在某些情况下,也更可怕)的东西。文生图工具和 ChatGPT 在短时间内扩大了我们对可能性的想象,而 ChatGPT 成为了历史上增长最快的应用程式。
数以百万计的开发者和产品经理涌入 AI 领網域,挤满了这个长期以来只有博士和工程师出入的空间。我们现在都在使用 AI,而这群终端用户即将在整个空间上施加更大的影响。
在 Delangue 的观点中,任何对 AI 未来有所投资的人都应该成为 Hugging Face 社区的一部分。" 如果用户不理解这项技术是如何构建的," 他说," 它会带来很多风险,很多误解。"
Delangue 认为,对尚未实现的通用人工智能的崛起的担忧是错位的。
他同意 Andrej Karpathy,(前特斯拉 AI 总监,现在是 OpenAI 的人工智能专家)于 2017 年提出的观点—— AI 是 Software 2.0。在这个观点中,AI 是现代世界运作方式的重大进步,它也已经开始塑造经济。但是,它不是万能的。
"AI 是构建所有技术的新范式,但它不是新的人类形式,它不是超级感知生物。但它确实拥有庞大的潜力,它会比互联网大,比传统軟體大。它将为技术创造新的能力,与大多数技术公司编写軟體一样,大多数技术公司将编写 AI。" Delangue 说。
Delangue 从他的经验谈通用大模型与开源小模型的适用性问题 :" 有两种 AI 世界观,一种是一个通用的大模型解决所有问题,另一种是许多开源小模型解决不同的问题。选择哪一种路线,取决于你的使用情况,限制情况和你想做什么。
如果你是 Facebook,那一个巨大的模型能为你的用户做任何你想帮他们做的事情;如果你是一个消费品公司,那么你需要针对你的实际场景选择和优化 AI 模型,这些模型要更快,更便宜,更高效。所以,如何选择,取决于你如何定位你自己。"
对于企业是直接使用大公司模型的 API 还是自己训练和微调开源模型,Delangue 的观点是:" 直接使用 OpenAI 的 API 在开始阶段更快,更容易,但是从长期来看,创业者面临的挑战更大,因为你没有真正建立核心竞争力。
如果一个使用 AI 的创业公司没有能力优化模型,那么它面临的风险是在与竞争对手竞争时,无法使自己脱颖而出。如果创业公司想让自己具有差异化竞争能力,就必须针对它的用户做一些真正有价值的事情,并能持续进行优化。就像传统軟體公司需要编写代码来构建技术产品一样,AI 公司也要在机器学习范式中训练或定制自己的模型。"
Delangue 进一步指出,这是新公司颠覆旧有企业的巨大机会:因为旧企业会选择容易的解决方案,而其他更需要 AI 的公司会选择更具颠覆性的方式,这就是具有模型训练能力的 AI 原生创业公司的机会。它们自己训练模型,自己微调模型,它们在同样的任务上可以比只使用现成 API 的公司好得多,它们就有很大机会颠覆旧有的解决方案。
AI 发展太快
现有的盈利方式
可能 3-5 年后就不适用了
对于 Hugging Face 的商业模式,Delangue 介绍道:" 我们就是经典的免费 + 增值付费模式(一种经典的开源軟體商业模式,基础版本免费,更高级的功能收费)。" 他还透露公司目前已经有包括 Bloomberg, Grammarly 在内的 3000 家付费客户。
对于公司目前的第一要务,Delangue 认为并不是盈利:" 我们的主要优先事项是作为一个具有网络效应的平台,被更多人采纳和使用, 这也是我们的 KPI。
" 在 AI 这样的领網域,你期望公司愿意为 AI 付费,所以如果 Hugging Face 继续成为公司使用的第一 AI 平台,很明显我们将能够从中获得大量的收入,并建立一个好的业务。"
" 对于盈利,我们必须把它看作是逐步解锁一些学习的阶段。从六位数的收入开始,公司成员从中学习,看看它是如何运作的,然后是七位数、八位数和九位数的收入。每一步你都在学习,特别是在 AI 领網域,因为底层技术的发展速度非常快,可能我们今天赚钱的方式在三年后或五年后就不适用了。"
非典型创始人:
投资人不该抢创业者的活
在与 20VC 的访谈中,Delangue 还介绍了自己的融资原则。
首先,在两轮融资之间,他不会与任何外部投资者交谈。因为建立公司已经足够困难,必须百分之百的专注于这件事。
第二,当他融资时,通常会进行得非常快,一旦已经获得足够公司发展的资金,就不再与不熟悉的新投资人接触。因为很多投资人并不真的对创业者正在建立的业务足够了解或感兴趣。尤其是像 Hugging Face 这样在种子轮时做聊天机器人,之后又做 AI 开源社区的,这两轮的投资人,是完全不同的。
第三,他在选定投资人后,会与这位投资人共度 3 天时间,深度地互相了解和尽调,并且搞清楚一些重要问题:我们的目标一致吗?我们的期望相似吗?我们能在之后保持一个良好的互相支持的关系么?
对于风险投资人,Delangue 认为部分投资人遗忘了风险投资对于创业公司的帮助首先是财务帮助,而把大部分时间都花在了其他事情上,有时甚至表现得像 CEO,他认为这其实并不是他们的工作。
" 更糟糕的是,我感觉有时候创业者是为投资者而建立公司,而投资者表现得像创业者。有时这上会导致公司崩溃,因为不幸的是,与创业者相反,投资人会同时管理很多不同的被投公司,所以他们只能在每家公司上花费很短的时间。即使他们是世界上最聪明的人,由于时间的限制,他们对技术的理解有时可能过于简单化,例如对公司和其他事物的理解。" 他这么表述自己对于风险投资人的不同看法。
而对于自己最喜欢的投资人,Delangue 表示是 Richard Socher:他是 NLP 领網域最杰出和最有影响力的研究者之一,现在是 You.com 的创始人。Richard 和 Delangue 相识很早,在很多方面都帮助过 Delangue 和 Hugging Face,无论是科学,商业还是创业方面。
本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系[email protected]。