今天小編分享的互聯網經驗:騰訊雲行業大模型的“面子”和“裡子”,歡迎閱讀。
文 / 周雄飛
編輯 / 子夜
過去半年,大模型在延續火熱态勢的同時,也在加速分化。
一個明顯的特征是,除了通用大模型之外,業界對行業大模型的布局,也變得火熱起來了。
7 月 6 日 -8 日召開的 2023 世界人工智能大會上,騰訊研究院發布了《人機共生——大模型時代的十大 AI 趨勢觀察》報告,報告中有兩點趨勢尤其值得關注:
第一,未來将形成模型即服務的 MaaS 生态;
第二,行業應用是大模型的主戰場。
報告指出,一方面,大模型為 AI 标準化、模塊化、自動化的實現提供了路徑,正在重構現有的商業模式;另一方面,在金融、零售、政府、制造、物流等多個行業及應用場景,生成式 AI 技術已經展現出了出色的能力,接下來各行各業都将迅速整合大模型的能力,創造出全新的商業價值。
結合這兩點,不難發現,随着大模型產業從混沌走向成熟,其在產業場景的應用落地,将成為接下來業界的一個關鍵命題。
行業大模型熱潮下,騰訊是布局行業大模型的最具代表性的一個玩家。
上個月,騰訊雲已經公布了自己的方向——服務產業界,洞悉不同產業對大模型的需求,向更多產業場景的用戶提供 MaaS(Model as a service)服務。
在回答了做什麼以後,現在騰訊雲要回答怎麼做的問題:
在具體深入產業的過程中,騰訊雲如何按需提供大模型解決方案?
騰訊雲的技術優勢體現在哪裡?憑什麼為各個產業的用戶 " 量體裁衣 "?
目前落地的效果如何,是否達到客戶預期?
也就是說,選擇先做行業大模型這一路徑後,騰訊雲實際上完成了 " 面子 " 的整體搭建,這基于它布局大模型的思路,指導着騰訊雲行業大模型的布局方向。
但比 " 面子 " 更重要的是 " 裡子 ",即在大方向确定下來之後,如何在接下來一步一步腳印,給出場景落地的最佳答案。畢竟,產業場景,才是大模型的最佳練兵場。
騰訊雲做行業大模型,
扎根產業場景
目前,中國大模型產業目前還處于發展初期,未形成穩定格局,不過,探索大模型技術的產業化應用,已經是行業的一大共識。
這一共識下,最近一段時間,越來越多的垂直行業大模型開始湧現。
比如毫未智行發布了自動駕駛生成式大模型 DriveGPT、我愛我家聯合第四範式推出了行業首個房產經紀大模型 1.0 版本、互聯網醫療公司醫聯也發布了自研的醫療大預言模型 MedGPT 等等。
除了企業親自下場,研發專屬的行業大模型之外,還有一個玩家尤其值得關注。
騰訊雲在 6 月份發布了行業大模型解決方案,其依托騰訊雲 TI 平台打造了行業大模型精選商店,為客戶提供 MaaS(Model-as-a-Service)一站式服務,幫助客戶構建專屬大模型及智能應用。
騰訊雲 MaaS 全景圖,圖源騰訊雲公眾号
簡單來說,如果一家企業想要擁有自己的大模型,他們不必親自下場做,而是可以依托騰訊雲的行業大模型解決方案達成訴求。
據連線 Insight 了解,騰訊雲 TI 平台内置了多個高質量行業大模型,涵蓋了金融、傳媒、文旅、政務、教育等多個行業場景,企業可以結合自身場景數據按需定制精調,也可以根據自身需求開展多模型訓練任務。
不難發現,在做大模型這條路上,騰訊選擇了一條有着明顯差異化的路徑:
它把重心放在了行業大模型上,試圖在不同的場景中落地,它站在了產業互聯網的視角,思路是要幫助更多的企業更方便、快捷、實惠地用上行業大模型。
在 2023 世界人工智能大會現場,騰訊集團高級執行副總裁、雲與智慧產業事業群 CEO 湯道生表示,通用大模型有很強的能力,但并不能解決很多企業的具體問題。
" 企業的大模型應用需要綜合考慮行業專業性、數據安全、持續迭代和綜合成本等因素。基于行業大模型,構建自己的專屬模型,也許是企業更優的選項。" 湯道生表示。
實際上,騰訊雲是第一批下場做行業大模型的玩家、同時是最先打造行業大模型生态的玩家。
" 大模型時代,開放是非常重要的一個特點。我們觀察到,底層的技術變化太快,技術的外延能力也會非常廣,大模型要結合到一個行業裡面,要發揮最大的價值,只有開放,通過開放讓行業專家等各類角色人員加入進來,才能讓生态更加健康,產生更多可能性。" 騰訊雲副總裁、雲智能負責人、優圖實驗室負責人吳運聲提到。
這背後,是騰訊雲對大模型以及產業互聯網的深度思考。
一方面,騰訊雲觀察到,相比于通用大模型,行業大模型更加具象,可以貼近企業的實際需要。吳運聲表示,大模型的技術跟騰訊在產業互聯網多年的經驗和數據結合之後,能夠用跟以往不一樣的方式,解決很多行業遇到的問題。
另一方面,騰訊雲推出行業大模型,也與其以往的業務邏輯相關聯。騰訊 CSIG(雲與智慧產業事業群)在產業互聯網領網域深耕多年,積累起了大量客戶和行業 knowhow,使得騰訊雲在垂直行業打造行業大模型解決方案時,有着天然優勢。
這條路徑,同時與騰訊在推動 B 端企業數字化轉型過程中秉承的 " 務實 " 理念一脈相承——即大模型需要深入到產業中去、需要在各行各業落地實踐,才能發揮出最大的效用,并不斷迭代及進化。
這也是為什麼,騰訊雲的行業大模型解決方案,其實就做了一件事:讓更多的企業通過騰訊雲,用更低的成本、更高效地加速大模型在更多產業場景的落地。
為行業用戶 " 量體裁衣 ",
究竟怎麼做?
《人機共生——大模型時代的十大 AI 趨勢觀察》中提到,随着生成式人工智能技術的飛速發展,已經在多個領網域催生出全新的商業價值。
一個現象是,在全球範圍内,第一批跨功能的應用已經出現。比如金融行業的 Stripe、Bloomberg;零售行業的可口可樂;生命科學領網域的 Profluent、absci 等,在這些落地中,生成式 AI 被應用到内容創建、知識發現、智能客服等場景。
在中國市場,這種趨勢同樣明顯。以騰訊雲為代表的一眾廠商,已經在積極推動大模型在產業場景的落地。
在騰訊雲的 MaaS 一站式服務下,企業可以從大模型精選商店中按需取用,可以在解決方案基礎上加入獨有的場景、數據,快速精調生成專屬模型,還可以根據業務場景需求,按需定制不同參數、規格的模型。
與此同時,騰訊雲 TI 平台提供完善的大模型平台和工具鏈,企業可以根據自身業務需要進行數據精調;騰訊雲還提供本地化的訓練、落地及陪跑優化服務。
在這一系列布局之下,騰訊雲在無形中降低了普通客戶使用大模型的門檻——正如騰訊雲所希望的那樣,大模型需要更懂行業、更易落地。
吳運聲告訴我們,騰訊雲希望在每個特定場景裡面 100% 解決客戶的問題,而不是找 100 個產品解決 70% 到 80% 的問題,因此會聚焦于找一些特定的行業,跟客戶深入打磨,解決行業問題。
我們不妨來看看,騰訊雲在金融行業的大模型,實際的落地表現如何。
相比其他行業,金融行業的數字化難度更大、場景更復雜。
一方面,金融行業是強監管行業,對安全性和可靠性要求極高;另一方面,金融業數字化場景和需求極其豐富、極其碎片化。
以票據處理場景為例,2017 年、2018 年前後,各大銀行開始紛紛引入 OCR 模型,輔助人工,讓銀行票據處理效率得到了大幅提升,這也是騰訊雲智能起初切入金融行業數字化時率先布局的場景。
不過随着時間推移,銀行票據種類、版式多的特征愈發明顯,銀行對長尾場景偏復雜的識别需求也逐漸增多,這導致原來普通的 OCR 技術不夠用了。尤其是由于票據版式不固定、樣本量少、數據标注質量不佳、排版復雜,或者文檔中含有手寫體、多種語言、特殊字元等情況下,OCR 的識别準确率開始大大降低。
解決這一問題的一種方式是,銀行在前端繼續投入人力進行錄入和校驗,在後端則增加開發人員,對新出現的版式重新配置模型。
但這種方式顯然過于低效、且所耗費的在人力等方面的資源較重。
騰訊雲的解法是,通過提升 OCR 模型的泛化能力,推出了多模态融合技術以及 TI-OCR 訓練平台。
騰訊雲 TI 平台產品特性,圖源騰訊雲官網
簡單來說,騰訊雲利用文本、影像和布局三個天然對齊的模态信息,在多模态文檔預訓練的基礎上,進一步統一了文檔結構化信息提取範式,形成了智能結構化基礎模型,使得單一模型能夠支持 5000 種以上版式。無論是銀行單據、票證、憑證等,這一模型都能進行高精度信息提取。
而推出 TI-OCR 平台,則是騰訊雲選擇将能力開放,通過提供低門檻的訓練工具,讓客戶自己也可以訓練非标準化文檔的 OCR 模型。
一家國家首批股份制商業銀行,利用騰訊雲 TI-OCR 大模型,最終實現了對各種格式數據的高精度識别,識别準确率高達 95% 以上。同時客戶還減少了低價值高耗時的手工作業,節省了運營、人力成本,實現了多元業務數據處理的标準化、線上化、自動化。
同樣值得注意的是,先切實解決某個行業的一個問題,再将沉澱下來的能力對外開放,是騰訊雲智能的一條落地路線,比如除了 TI-OCR 平台之外,騰訊雲智能還推出了針對工業質檢場景的 TI-AOI。
再來看另外一個案例,騰訊雲 TI 平台能力在金融場景下的創新。
2016 年以來,上海金融期貨信息技術有限公司(以下簡稱:中金所技術公司)不斷探索 AI 技術在結構化與非結構化數據中的應用實踐,也產出了一定的學術成果。
但長達幾年的時間裡,這些研究始終缺乏一個統一落地的平台。這給客戶帶來了一定困擾。
比如無法實時獲知算法服務的監控和資源占用情況,導致算法服務運維成本高,資源分配不合理;再比如,傳統的開發模式下,算法框架重復構建,運行環境中的版本衝突等問題。
與此同時,由于 AI 開發的成果和資產分别需要集成至不同系統,因此帶來了管理和復用的問題。
2020 年底,中金所技術公司開始引入騰訊雲 TI 平台。其相關負責人告訴連線 Insight,目前他們使用最多的模塊有兩個。
騰訊雲 TI 平台泛互聯網客戶 TI 解決方案,圖源騰訊雲官網
第一個是訓練工坊,也就是訓練模型的。
在騰訊雲 TI 平台,通過訓練工坊,可以使用任務式建模構建模型,以向導式的訓練任務提交方式進行模型構建,支持基于多種算法來源進行訓練任務提交,同時還可以直接通過代碼包綁定主流訓練框架啟動訓練任務,也可以快速使用主流高性能及分布式訓練框架提交訓練任務。
在這一過程中,由于平台内置了通用算法框架和上百算子,在某種程度上降低了企業算法框架的搭建成本和人力投入。同時,可視化建模的方式,也減少了開發基礎算子的時間和編碼工作量,加速了模型開發及訓練過程。
第二個是模型服務功能,是用于對外服務的。
騰訊雲 TI 平台同時支持客戶發布和調用模型。簡單來說,客戶可以将第三方模型導入平台,并部署在線服務,也可以将平台訓練出來的模型部署為在線服務。
中金所技術公司由于業務需要,主要将自己開發的算法導入到平台,緊接着以服務化的方式提供給其他部門使用,提供 restful 服務。
這位負責人告訴我們,在這一過程中,他們與騰訊雲緊密合作實現了平台的定制化功能,從而使平台可以支持靈活的基礎環境拓展及自定義,實現了算法框架的持續更新迭代。
值得注意的是,平台除了支持基于客戶本身開發的模型之外,還納管了上線前的 OCR、ASR、TTS 等模型和算子,從而實現了 AI 資產的統一管理,提升了開發效率和資源復用。
最後,在實際應用中,騰訊雲 TI 平台已成功支持了包括中金所及技術公司内部的智慧屏和三大平台系統,每日調用峰值高達 1 億次,整體調用成功率超過了 99%。
有技術和 TO B 經驗,
才能做好行業大模型
除了推動行業大模型在金融行業加速落地外,在文旅、媒體、教育、政務等多個垂直賽道,騰訊雲行業大模型也在加速落地。
比如央視基于騰訊雲智能媒體 AI 中台,部署了 TI 平台原生模型服務,打造人工智能開放平台,通過引入自研 " 标籤權重引擎 ",讓内容标籤的顆粒度更細、理解度更深、泛化性更高。
騰訊雲行業大模型不斷落地背後,有兩個不容忽視的關鍵要素。
第一個要素是技術。
騰訊雲打造的模型精選商店,基于大模型高性能計算集群和大模型能力,依托的則是騰訊雲 TI 平台。
當前,騰訊雲 TI 平台集合了 AI 應用服務平台 TI-Matrix、機器學習平台 TI-ONE、數據标注平台 TI-DataTruth,各平台功能模塊可以解耦按需交付部署,持續降低構建、應用 AI 能力的成本。
在此基礎上,騰訊雲 TI 平台可以打通從數據獲取、數據處理、算法構建、模型訓練、模型評估、模型部署、到 AI 應用開發的全流程。
最近,騰訊雲還正式發布了新一代 HCC 高性能計算集群,采用騰訊雲星星海自研伺服器,為大模型訓練、自動駕駛、科學計算等提供高性能、高帶寬和低延遲的集群算力。數據顯示,騰訊雲新一代集群的算力性能較前代提升了 3 倍,是當前國内性能最強的大模型計算集群。
與此同時,7 月 4 日,騰訊雲正式發布了 AI 原生向量數據庫,能夠被廣泛應用于大模型的訓練、推理和知識庫補充等場景,也是國内首個從接入層、計算層、到存儲層提供全生命周期 AI 化的向量數據庫。
不難發現,騰訊雲在這些基礎設施側的技術累積,是支撐其行業大模型加速落地的一大關鍵。
第二個要素是賦能 TO B 的經驗。
行業大模型要想真正做到賦能、改造甚至颠覆行業,一個必要的前提在于,需要對技術應用場景、業務等有深刻的認識,對特定行業的痛點有深刻理解。
在這一層面,騰訊自 "930 變革 " 後加速向產業互聯網轉型,至今已經積累起了豐富的產業數字化賦能經驗,并持續深化 " 務實 " 這一思路。
" 在内部,我們團隊不斷增加協同性、行業 know-how,以前金融、傳媒的架構師從只售賣 AI 產品,後來他們會主動了解客戶的痛點,不斷适配相應的產品解決方案。" 吳運聲如此表示。
可以預見的是,随着大模型深入產業的熱潮持續下去,以及 MaaS 化帶來的新一輪商業模式變革下,TO B 領網域也将進入新的競争階段。
在這一趨勢下,騰訊率先推動行業大模型,無疑是一個正确的決定。而在大模型落地、賦能各行各業的過程中,又會反過來對騰訊雲的自身能力產生正反饋,形成飛輪效應。
連線 Insight 旗下矩陣号「連線出行」歡迎關注