今天小编分享的互联网经验:「Flower lands」pre-seed轮融资360万美元,利用联邦学习方法训练大语言模型,欢迎阅读。
作者:子渝 编辑:王与桐
据外媒 Techruch 报道,初创人工智能公司「Flower lands」近期宣布完成 360 万美元的 pre-seed 轮融资,由深度科技风险投资公司 First Spark Ventures、Factorial Capital、Betaworks 和 Pioneer Fund 等投资。该轮融资将用于扩大 Flower 的研发核心团队、加速开源軟體的开发,为 Flower 的框架和生态系统提供动力。公司旨在解决 AI 模型训练工程中对公共数据 ( 主要是网络数据 ) 的依赖,并在近期推出训练大语言模型 ( LLM ) 的联邦学习方法—— FedGPT。
Flower lands 的创始人——剑桥大学 ( University of Cambridge ) 的科技企业家兼科研工作者丹尼尔 · 贝特尔 ( Daniel Beutel ) 提出观点:人工智能模型训练过程对公共数据 ( 主要是网络数据 ) 的依赖阻碍了人工智能领網域的发展。他在电子邮件采访中告诉 TechCrunch 说:" 公共的、集中的数据只是世界上所有数据的一小部分。相比之下,分布式数据存储在手机、可穿戴设备和物联网设备上的分布式数据和存储在企业内部业务部门等组织孤岛上的数据要大得多,也要全面得多,但今天的人工智能还无法触及。"
由此,Beutel 于 2020 年与剑桥同事 Taner Topal、三星剑桥人工智能中心前负责人 Nicholas Lane 共同创建了 Flower,旨在通过一个平台进行 " 去中心化 " 的人工智能训练过程。该平台允许开发人员根据分布在不同地点、不同设备中的数据训练模型;同时,依靠联邦学习(Federated Learning)技术,Flower 不提供对数据的直接访问,能够满足用户隐私保护、数据安全、数据保密和政府法规的要求。
联邦学习技术在 2016 年首次被学术界提出,其旨在解决联合存在于多个终端(例如移动手机)中的数据进行中心化模型训练的问题,即利用分布式数据训练 AI 模型。如今,DynamoFL、DataFleets 和 Sherpa 等初创公司和谷歌等大型科技公司正在采用某种形式的联邦学习训练人工智能模型。
Flower 认为,基于分布式数据的基本优势,一旦分布式数据变得可访问和易访问,这种人工智能方法不仅将成为主流,而且将成为人工智能训练的规范。Beutel 说 :" 有了 Flower,在模型训练期间,数据不需要离开源设备或位置 ( 例如,公司设施 ) 。相反,训练过程将在数据所在的每个位置进行部分训练,最终只有每部分的训练结果(而非数据)被传输与合并。"
Flower 最近还推出了训练大语言模型 ( LLM ) 的联邦学习方法—— FedGPT,可与 OpenAI 的 ChatGPT 和 GPT-4 相媲美。FedGPT 目前还处于预览阶段,允许公司针对分布在世界各地不同设备(包括数据中心和工作站)上的数据对大语言模型进行训练。
对于 FedGPT,Beutel 说 :"FedGPT 很重要,因为它允许组织使用内部敏感数据构建大语言模型,而无需与大语言模型提供商共享数据。公司的数据也经常分布在世界各地或组织的不同部分,且无法进行转移,但是 FedGPT 允许在训练大语言模型时利用这些数据,同时仍然保证用户隐私保护、数据安全,并遵守相应法律法规。"
Flower 还与开源网络浏览器 Brave 合作,推出了一个名为 Dandelion 的项目。Beutel 说,该项目旨在建立一个开源的联邦学习系统,覆盖目前 5000 多万 Brave 浏览器客户端。
对此,Beutel 说 :" 人工智能正在进入一个监管越来越严格、十分关注数据来源的时代。客户可以在保证数据安全的情况下使用 Flower 构建人工智能系统,如此能够利用比以往更多的数据 . . . . 在 Flower 上,利用联邦学习原则,人工智能系统可以在不同的约束条件下成功部署和训练。"
据 Beutel 称,Flower 在过去几个月的发展令人印象深刻,其开发者社区增长到 2300 多人。他声称,许多财富 500 强企业和学术机构都是 Flower 的用户,包括保时捷、博世、三星、银行圈、诺基亚、斯坦福、牛津、麻省理工学院和哈佛大学等。
针对开头提到的人工智能对公共数据的依赖,Beutel 说 :" 人工智能正面临的危机会周而复始,对于联邦学习来说,这种危机甚至更为严重。由于缺乏对分布式数据的广泛训练,我们缺乏能够普适、主流的开源軟體训练方法来面对危机。通过公司每个人的共同努力,我们的目标是在 Flower 上为公众提供世界上最大的开源联邦技术集。"