今天小編分享的互聯網經驗:大模型時代的數據底座怎麼建,歡迎閱讀。
圖片來源 @pixabay
大模型的生產需要數據底座的支撐,因為只有高質量、高密度的數據去訓練模型,才有可能得到更精準的生成效果。就當前而言,訓練一個 500T 參數的模型,使用的訓練數據已經達到 16.6PB,如果一本書按 500KB 算,相當于 332 億本的數據量。這是什麼概念?好比說現存每個人類擁有 4 本書的量級。
但問題是,使用大量互聯網上公開數據集,僅在數據清洗環節就提出極大挑戰,被精煉的高質量數據正如石油一樣,非常珍貴。钛媒體 APP 注意到,目前不少模型提供方,已經在特定領網域使用合成數據用于模型訓練,其原理是希望能夠基于大模型自動生成高質量數據集。而這只是一方面。
目前數據量的暴漲,還要求使用各種技術手段實現數據的預訓練和微調,數據智能應用場景下,對大數據平台的管理水平和安全能力要求提升,這對于基于雲服務應用的企業而言,挑戰的復雜性會更為明顯。
在媒體溝通會上,亞馬遜雲科技探讨了數據在生成式 AI 時代的重要性及挑戰,從三個層面分析企業想要構建數據底座,可參考的解決方案和路徑。钛媒體摘錄了一些關鍵要點,如下:
企業構建數據底座過程中,往往會通過三類方式進行基礎模型的數據定制,以适應不同應用場景,分别是:檢索增強生成(Retrieval-Augmented Generation,RAG)、微調和持續預訓練。
RAG、微調和持續預訓練需要的數據規模、數據來源和技術要求各不相同。例如,RAG 需要 GB 級企業數據,微調需要 GB 級人工标的高質量數據,持續預訓練則需要 TB 級未标的原始數據。RAG 的數據來源是企業内部文檔庫、數據庫、數據倉庫、知識圖譜;微調數據來源為私網域知識;持續預訓練數據來源為公開的數據集或企業各部門的數據。
企業構建數據底座面臨三類挑戰:一是在模型微調和預訓練階段,将海量原始數據轉化為高質量的大數據集,對存儲、清洗、治理的挑戰;二是快速獲取專有數據的挑戰;三是基礎模型頻繁調用将會導致成本的增加和響應的延遲的挑戰。
企業構建數據底座也應從上述三類挑戰入手:一是找到合适的存儲來承載海量數據;清洗加工原始數據為高質量數據集;對整個組織内數據的發現編目治理;二是利用 RAG 将專有數據提供給基礎模型;三是通過将之前問答生成的新數據存入緩存,從而在面對類似問題時,可以不調用模型,而直接通過緩存給出回答,這不但能夠減少模型調用,還可以節約成本。
圖片來源 @亞馬遜雲科技
亞馬遜雲科技大中華區數據分析與生成式 AI 產品總監崔玮在交流中告訴钛媒體 APP,從前端模型的使用來看,Amazon Bedrock 提供了一個平台開放給客戶,讓客戶自己選擇适合自身業務場景的模型。同樣在後端,無論是數據分析工具,還是數據庫,都是希望通過提供一套最合适的產品和服務,讓用戶在任何一個應用,任何一個數據存儲的環境,都可以通過向量化能力,對接到企業客戶的不同業務場景中。
在數據存儲方面,擴展性和響應速度是關鍵。Amazon S3 對象存儲,支持廣泛的數據協定,應對各種數據類型,還支持智能分層以降低訓練成本。Amazon FSx for Lustre 檔案存儲服務,提供亞毫秒延遲和數百萬 IOPS 的吞吐性能,能夠進一步加快模型優化的速度。
在數據清洗方面,企業面臨着繁重的數據清洗加工任務。Amazon EMR serverless采用無伺服器架構,幫助企業運行任何規模的分析工作負載,自動擴展功能可在幾秒鍾内調整資源大小,以滿足不斷變化的數據量和處理要求。Amazon Glue是一個簡單可擴展的無伺服器數據集成衣務,可快速完成微調或預訓練模型的數據準備工作。
在數據治理方面,企業難以在多個賬戶和區網域中查找數據,也缺乏有效的數據治理工具。Amazon DataZone讓企業能夠跨組織邊界大規模地發現、共享和管理數據,不但能夠為多源多模态數據進行有效編目和治理,還提供簡單易用的統一數據管理平台和工具。
利用 RAG 技術将專有數據提供給基礎模型。将向量搜索的支持功能加入到主流的數據服務中,通過将數據和向量存儲在一起來提升數據查詢性能。Amazon Neptune 圖數據庫推出分析數據庫引擎,以結合圖數據庫與大模型的優勢,從而能夠快速從圖形數據中獲取洞察,并進行更快的向量搜索。
在提升模型調用效率方面。Amazon Memory DB 内存數據庫通過緩存之前問答生成的新數據,實現對類似問題的快速響應和準确回答,同時有效降低基礎模型的調用頻率。此外,亞馬遜雲科技還将無伺服器數據庫服務和 Amazon OpenSearch Serverless用于向量搜索。
正如亞馬遜雲科技大中華區產品部總經理陳曉建所言," 企業需要的是懂業務、懂用戶的生成式 AI 應用,而打造這樣的應用需要從數據做起。"
例如,北京靈奧科技是一家大模型中間件領網域創企。在此之前,北京靈奧科技就已經将整個平台搭建在亞馬遜科技之上,使用了 Amazon EKS、Amazon DocumentDB、Amazon S3 等基礎雲服務和數據存儲產品,以及基于 Amazon Bedrock 提供的 Claude 模型,用于構建 Vanus 平台的 AI Agent 助手。
圖片來源 @靈奧科技
在服務一家南美州服飾類電商企業的過程中,Vanus 為 Shopify 電商客戶構建了客服類 Agent VanChat。數據顯示,通過 VanChat 提供的用戶意圖識别、產品推薦等功能加速用戶產品購買,提升網站的銷售額。VanChat 為該客戶帶來快速的營收增長,僅上線首月 ROI 高達 611%。
從最近的動作來看,擅長從客戶需求視角倒推產品,亞馬遜雲科技已将上述提及的能力抽象為部分產品方案開放出來。(本文首發于钛媒體 APP, 作者|楊麗,編輯 | 蓋虹達)