今天小編分享的互聯網經驗:大模型背景下,AI基礎軟體的實踐路徑是什麼?,歡迎閱讀。
圖片來源 @視覺中國
大模型的熱潮,正推動 AI(人工智能)基礎設施走向新的歷史舞台。
" 大模型,就跟過去的小模型一樣會變得趨同化,也就是對算力成本的消耗會逐漸降低,在應用領網域(場景)的落地能力得到了更強的擴大。從更長遠來看,AI 的落地會落實到某種具體業務的支撐,這同時也會導致某些角色(崗位)被替代掉。在新的穩态下,會形成新的基于大模型能力的產業鏈分工。" 九章雲極 DataCanvas 聯合創始人尚明棟告訴钛媒體。
定位于 AI 基礎軟體服務商,而不是一個單純的模型方案提供商,九章雲極這個思路,與當下大模型技術帶來的產業變革密切相關。
尚明棟認為,大模型與過去訓練的小模型出現了根本性區别,即模型兩段論:首先有一個基礎大模型,然後在這個基礎之上基于知識庫 / 知識圖譜技術,構建面向專業領網域的微調模型。
但聚焦于 AI 基礎軟體又有些不容易讓人理解,與通常意義上講的 EDA、ERP 等工業核心軟體不同,AI 基礎軟體不僅僅是涉及到軟體層面,它還是面向中國客戶的 ToB 軟體生态。
在 2013 年成立之初,九章雲極并沒有 AI 基礎軟體的概念,而更多是數據智能基礎軟體,這個中間的變化也是源自ToB 軟體產業能力棧的分工改變,這個過程也伴随了客戶市場的成熟。如今 ChatGPT 進行了一場非常成熟的全民性教育,因而大模型的能力建設在時間上會被極大的壓縮。九章雲極也在大模型訓練的關鍵環節上 " 啃了硬骨頭 ",并具備快速形成标準化工具的能力。
但這家企業過去也走過彎路,怎麼提供一套符合中國客戶需求的產品服務,相比于以效率為先的思路,以國央企客戶為服務主題,很多企業首先要保證數據信息安全的問題,因此九章雲極最早是圍繞數據為企業構建存、算能力。
目前九章雲極提供了數據基礎平台、機器學習平台,以及行業大模型平台。在數據基礎層,包括數倉、流批一體的實時數據能力。在 AI 機器學習平台方面,九章雲極一方面會長期投入可形成核心壁壘的部分,同時也在于頭部企業客戶形成早期合作。比如包括 AutoML、大規模分布式訓練框架、因果推演 YLearn,都是從 2019 年起就開始投入。
而在預計推出的大模型方面,由于同樣受限于傳統深度學習的方式,大模型技術在可解釋性上依然存在挑戰。
賽迪顧問最近提出一則觀點:國内企業在大模型發展方向研判上呈現出跟随式發展态勢。例如 GPT4 開啟多模态大模型發展方向後,國内先發大模型也紛紛發展多模态,如何擺脫跟随式發展路徑依賴,構建自主可控創新型大模型是當前重點任務。
大模型預計為產業帶來了巨大影響,但同樣存在不小的應用風險和商業化成本問題。這值得思考。從目前來看,大模型在企業場景中的應用形态還比較單一,更多局限于語音 / 文字互動,如金融行業可能就是一張金融報表或檢索工具。
但大模型已經在增強模型泛化能力,意味着 AI 落地性增強了,與此同時也在對過去的基礎設施進行衝擊,過去需要的是計算、存儲、網絡三要素,而現在帶寬支撐已經遠遠不夠,算力密集型應用場景中需要大量的算力建設。
尚明棟認為,未來影響大模型多樣化路徑發展的三大重要因素,算力、數據和基礎軟體。未來随着算力性能逐漸同質化和标準化,數據的差異性和企業需求的個性化逐漸加大。作為模型生态系統的中堅力量,AI 基礎軟體将會成為大模型應用落地的最主要的效率支撐,并通過大模型 + 小模型的方式,形成模型訓練新範式。
以下為钛媒體與尚明棟的對話,主要解讀了當下產業趨勢、大模型帶來的影響,以及九章雲極在其中扮演的角色。以下内容經摘編:
钛媒體:如何理解九章雲極在做的大模型基礎設施?
尚明棟:其實我們偏向于行業構建大模型,這與九章雲極一開始的定位有關,一是服務于多個行業,二是打造的工具棧基本也是面向 ToB 為主。目前已經非常明顯地出現了行業模型的分化,所以我們更多也是基于行業構建大模型,或者說行業小模型。
钛媒體:但難度還是存在的,除了算力和數據,是不是意味着會跟業内其他大模型企業合作?
尚明棟:從長遠看,大模型跟小模型一樣會更加趨同化,對算力的成本消耗會持續降低。之所以說 " 大 ",其實講的是它具備一定的數據規模和技術門檻,同時起應用領網域得以進行非常多的擴大。大模型會逐漸構成一個新的產業鏈分工,因此 AI 的工業落地一定會落實到對于某個具體業務的價值體現。
例如大模型中涉及的專業知識庫的構建,原先可能都需要數據分析師利用 SQL 語言進行軟體涉及,而未來可能直接通過自然語言互動,從而降低了很多對專業性技能的依賴。從這個角度上,我們也會有自己的長期定位。
钛媒體:領網域大模型或垂直大模型,如果引入銀行客服、風控、反欺詐等場景,大模型的底層應用邏輯是什麼?看到或預判了什麼樣的場景?
尚明棟:坦白講我不能列舉太多,但我們的思考是,過去小模型解決的是 " 場景 ",大模型往往代替的是 " 分工 " 和 " 角色 "。大模型一方面為企業帶來了收益,同時也在為企業節省出了人工成本。根據這樣一個邏輯,與我們自身行業生态結合比較緊密的,或者說消耗了大量人力成本的環節,更有可能成為被大模型替代或驅動的目标,也是我們努力的方向。
目前銀行業的風控、營銷、運營等場景,都在非常密集地使用 AI 模型,用于替換原有的專家規則系統,本質上起到了開源節流的效果。
钛媒體:九章雲極在開源方面也做了一些工作,比如因果學習 YLearn、實時互動式分析 DingoDB,觀察國内外的企業組織,有哪些在開源生态運營或培育種子客戶方面,有哪些值得借鑑或可以超越的地方?
尚明棟:我們希望能夠持續在開源社區發聲,更好地提高項目框架的開發者活躍度。但就今天而言,在開源生态運營方面,我們其實也有短板,或者能力會相對有限。我們會積極參與到開源生态裡,對于需要行業工程化或能力復用的部分,會更好地根據行業或企業特性進行支持。
以 DingBD 為例,DingBD 的出現本質上是源自其行業客戶在實時數據應用過程中的能力不足。例如某企業客戶此前搭建了一套傳統數倉,後來又因非結構化數據搭建了數據湖,并引入流數據能力,以實現數據服務的實時化。
但在這個過程中,随着模型應用的實時化,會發現越來越多的模型在訓練和推理過程中所需的實時框架,是原先内存式數據庫所不能滿足的。在解決存儲問題的同時,實現高并發的實時計算,DingBD 原先解決的就是這樣一個問題。
如今随着行業數據的豐富,最早的鍵值數據庫的定義已經在改變,我們也會進行新的更新,在支持高并發的同時,提供支持存儲的互動式數據庫。
钛媒體:目前客戶應該是國央企占多數,所以是因為有這樣的客戶群體,最終決定了產品設計,包括推出雲中雲戰略?
尚明棟:這裡面國央企占了絕大多數。結合國家在十四五期間對于大數據、人工智能的定調,我們認為中國數字經濟的三家馬車,一定是算力、雲計算和大模型。所以作為一家企業,也是順應時代潮流,積極參與到國家在大數據和人工智能的生态建設中。
钛媒體:服務這類客戶時,比如會提及數據安全層面的話題,怎麼呈現這樣一個數據戰略?會參與數據雲建設嗎?
尚明棟:單從技術趨勢看,面對數據出現了存算分離,這其實有益于上一代存算一體背景下對數據分析的新範式。數據雲,可能更偏向于集中化數據标準能力建設或者更偏向于 " 存 ",而我們提供的是怎麼能讓企業高效計算并支撐上面的應用。
就目前所服務的客戶需求而言,基本屬于數據密集型業務,需要一定的算力規模,同時客戶自身也具備一定的技術能力。
钛媒體:哪些行業是數據密集型,其典型的需求特征是什麼?
尚明棟:數據不會憑空產生,未來模型也是數據資產的一部分,從趨勢上看,數據的產生是一個持續建設的過程。例如,互聯網行業屬于信息化與數據更加密集的行業。
九章雲極最早進入的其實是金融銀行業,然後逐步拓展至證券、保險、基金,進而從金融行業延伸到了運營商、智能制造、交通、能源電力等行業。另外,伴随企業信息化建設的延續,如物聯網感知設備數量的增長,產生了非常多的非機構化、半結構化數據。
钛媒體:這些數據是可以高效利用的嗎?
尚明棟:所謂理想的高效利用還有距離,但從趨勢上來講,我認為行業對于數據資產的價值體現上,已經有明顯都帶有對數據資產價值的高度共識。
(本文首發钛媒體 APP,作者 | 楊麗)
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App