今天小編分享的互聯網經驗:「Flower lands」pre-seed輪融資360萬美元,利用聯邦學習方法訓練大語言模型,歡迎閱讀。
作者:子渝 編輯:王與桐
據外媒 Techruch 報道,初創人工智能公司「Flower lands」近期宣布完成 360 萬美元的 pre-seed 輪融資,由深度科技風險投資公司 First Spark Ventures、Factorial Capital、Betaworks 和 Pioneer Fund 等投資。該輪融資将用于擴大 Flower 的研發核心團隊、加速開源軟體的開發,為 Flower 的框架和生态系統提供動力。公司旨在解決 AI 模型訓練工程中對公共數據 ( 主要是網絡數據 ) 的依賴,并在近期推出訓練大語言模型 ( LLM ) 的聯邦學習方法—— FedGPT。
Flower lands 的創始人——劍橋大學 ( University of Cambridge ) 的科技企業家兼科研工作者丹尼爾 · 貝特爾 ( Daniel Beutel ) 提出觀點:人工智能模型訓練過程對公共數據 ( 主要是網絡數據 ) 的依賴阻礙了人工智能領網域的發展。他在電子郵件采訪中告訴 TechCrunch 說:" 公共的、集中的數據只是世界上所有數據的一小部分。相比之下,分布式數據存儲在手機、可穿戴設備和物聯網設備上的分布式數據和存儲在企業内部業務部門等組織孤島上的數據要大得多,也要全面得多,但今天的人工智能還無法觸及。"
由此,Beutel 于 2020 年與劍橋同事 Taner Topal、三星劍橋人工智能中心前負責人 Nicholas Lane 共同創建了 Flower,旨在通過一個平台進行 " 去中心化 " 的人工智能訓練過程。該平台允許開發人員根據分布在不同地點、不同設備中的數據訓練模型;同時,依靠聯邦學習(Federated Learning)技術,Flower 不提供對數據的直接訪問,能夠滿足用戶隐私保護、數據安全、數據保密和政府法規的要求。
聯邦學習技術在 2016 年首次被學術界提出,其旨在解決聯合存在于多個終端(例如移動手機)中的數據進行中心化模型訓練的問題,即利用分布式數據訓練 AI 模型。如今,DynamoFL、DataFleets 和 Sherpa 等初創公司和谷歌等大型科技公司正在采用某種形式的聯邦學習訓練人工智能模型。
Flower 認為,基于分布式數據的基本優勢,一旦分布式數據變得可訪問和易訪問,這種人工智能方法不僅将成為主流,而且将成為人工智能訓練的規範。Beutel 說 :" 有了 Flower,在模型訓練期間,數據不需要離開源設備或位置 ( 例如,公司設施 ) 。相反,訓練過程将在數據所在的每個位置進行部分訓練,最終只有每部分的訓練結果(而非數據)被傳輸與合并。"
Flower 最近還推出了訓練大語言模型 ( LLM ) 的聯邦學習方法—— FedGPT,可與 OpenAI 的 ChatGPT 和 GPT-4 相媲美。FedGPT 目前還處于預覽階段,允許公司針對分布在世界各地不同設備(包括數據中心和工作站)上的數據對大語言模型進行訓練。
對于 FedGPT,Beutel 說 :"FedGPT 很重要,因為它允許組織使用内部敏感數據構建大語言模型,而無需與大語言模型提供商共享數據。公司的數據也經常分布在世界各地或組織的不同部分,且無法進行轉移,但是 FedGPT 允許在訓練大語言模型時利用這些數據,同時仍然保證用戶隐私保護、數據安全,并遵守相應法律法規。"
Flower 還與開源網絡浏覽器 Brave 合作,推出了一個名為 Dandelion 的項目。Beutel 說,該項目旨在建立一個開源的聯邦學習系統,覆蓋目前 5000 多萬 Brave 浏覽器客戶端。
對此,Beutel 說 :" 人工智能正在進入一個監管越來越嚴格、十分關注數據來源的時代。客戶可以在保證數據安全的情況下使用 Flower 構建人工智能系統,如此能夠利用比以往更多的數據 . . . . 在 Flower 上,利用聯邦學習原則,人工智能系統可以在不同的約束條件下成功部署和訓練。"
據 Beutel 稱,Flower 在過去幾個月的發展令人印象深刻,其開發者社區增長到 2300 多人。他聲稱,許多财富 500 強企業和學術機構都是 Flower 的用戶,包括保時捷、博世、三星、銀行圈、諾基亞、斯坦福、牛津、麻省理工學院和哈佛大學等。
針對開頭提到的人工智能對公共數據的依賴,Beutel 說 :" 人工智能正面臨的危機會周而復始,對于聯邦學習來說,這種危機甚至更為嚴重。由于缺乏對分布式數據的廣泛訓練,我們缺乏能夠普适、主流的開源軟體訓練方法來面對危機。通過公司每個人的共同努力,我們的目标是在 Flower 上為公眾提供世界上最大的開源聯邦技術集。"