今天小編分享的科技經驗:騰訊雲 AIGC 存儲解決方案全面更新,數據清洗、訓練效率翻倍,歡迎閲讀。
4月8日,在騰訊雲存儲技術發布會上,騰訊雲宣布其面向AIGC場景的雲存儲解決方案實現全面更新。據悉,使用新的解決方案,大模型的數據清洗和訓練效率可提升一倍,所需時間縮短一半,為AI大模型的研發和應用提供了強有力的支持。
騰訊雲AIGC雲存儲解決方案的核心競争力在于其全面自研的存儲引擎技術。該方案由對象存儲COS、高性能并行檔案存儲CFS Turbo、數據加速器GooseFS和數據萬象CI等產品組成,是國内首個實現存儲引擎全面自研的雲存儲解決方案。目前,已有80%的頭部大模型企業,如百川智能、智譜、元象等,選擇了騰訊雲的AIGC雲存儲解決方案。
在AI大模型的研發生產流程中,數據采集與清洗、模型訓練、推理是三大關鍵環節,每個環節都涉及海量的數據處理。
騰訊雲對象存儲COS支持單集群管理百EB級别存儲規模,提供便捷、高效的數據公網接入能力,并支持多種協定,充分滿足大模型PB級别的海量數據采集需求。COS通過自研數據加速器GooseFS提升數據訪問性能,實現高達數TBps的讀取帶寬,顯著提升數據清洗效率。
在模型訓練環節,騰訊雲自主研發的并行檔案存儲CFS Turbo,經過專門優化,每秒總讀寫吞吐達到TiB/s級别,每秒元數據性能高達百萬OPS,為業界領先。CFS Turbo能夠在10秒内完成3TB checkpoint檔案的寫入,大幅提升大模型訓練效率。
此外,數據萬象CI為大模型推理場景提供圖片隐式水印、AIGC内容審核、智能數據檢索MetaInsight等能力,全面優化AIGC内容生產與管理模式,順應監管導向,拓寬存儲邊界。
随着大模型應用的普及,存儲需求将變得更加多樣化和復雜化。在應對這一挑戰的同時,騰訊雲推出了Metalnsight產品,以滿足多模态數據搜索的需求,并且在存儲層面創新性地應對這些挑戰。
當前存儲技術主要應用于大模型的訓練階段,但随着大模型應用的普及,存儲技術将逐步向智能存儲和數據應用方向發展。同時,當前存儲領網域仍然需要解決穩定性、性能和性價比等核心問題,但随着大模型應用的持續增長,智能存儲、數據治理和數據應用等方面将成為未來存儲技術發展的重點。
會後,騰訊雲存儲總經理馬文霜、騰訊雲存儲總經理陳峥、騰訊雲檔案存儲總監陸志剛以及騰訊雲智能存儲總監葉嘉梁接受了極客公園在内的多家媒體群訪,分享了騰訊雲存儲在AIGC場景下的能力更新,以及新一代的存儲發展趨勢,群訪内容如下:
訓練與存儲策略
問:在大模型的訓練環節有一個指标是Checkpoint寫入時間,可否詳細解釋一下這個操作具體是什麼,以及為什麼重要?
馬文霜:Checkpoint它其實是GPU的顯存,剛剛也提到如果我們沒有把Checkpoint周期性的保存下來的話,那麼它的訓練的話就像剛剛陸志剛講的,比如説我們寫個文檔你沒有保存的話,中途沒有保存的話,一旦斷電以後你的文檔内容就全沒了,大模型的訓練其實也是一樣的,它中間的這些結果的話如果你不保存的話,,一旦遇到任何一個卡掉卡或者任何一台機器宕機,前期的訓練全部的功虧一篑了。所以説我們需要去寫這個Checkpoint,那寫這個Checkpoint為什麼需要快才行呢?
第一,你寫這個Checkpoint的時候它是所有的GPU全部要停下來,等你Checkpoint寫完了,就説每個GPU都要把自己的顯存寫到共享存儲裏面,必須是所有的GPU它都寫完了那我的GPU才能繼續開始訓練。也就是説,你這裏寫入的時間一定要非常短,如果你寫的太長了,比如説你任何一個卡寫慢了那可能其他人全部在等你,這樣的話你GPU訓練的效率就被拉低了,所以説我們就需要我們存儲的話提供更高的寫入帶寬,讓我們的寫入包括剛剛陸志剛講的,我們通過一些異步寫入的方式讓GPU的等待盡量的短。
問:在數據清洗環節騰訊雲使用的是對象存儲COS,但實際上在訓練和推理階段用到的是并行檔案存儲CFS Turbo,為什麼在不同環節用不同的存儲產品?在這個基礎上底層的引擎也不一樣,這兩個環節的不同之處分别是什麼?
馬文霜:這個我來回答一下吧。清洗環節它的對象是互聯網上原始數據,所以它的數據量是比較大的,一般到PB級甚至到EB級的。但是比如説清洗完了以後,可能它只是裏面符合我們需要的那個内容其實只是裏面的一小部分,所以説我們把原始數據放到COS裏面的話主要是考慮到COS它的價格是更便宜,那這樣的話我是可以付出更小的成本先把原始數據先存下來。我清洗完了以後,我裏面有效的數據我提取出來了以後,那我放到Turbo裏面,Turbo因為它是一個高帶寬、高OPS、高IOPS的一個存儲,它的存儲的價格的話是比對象存儲要高的。
為什麼要放到Turbo裏面呢?主要還是你在訓練這個環節,因為它是要涉及到GPU集群效率的一個提升,因為如果你在訓練這個環節你還是去用COS低成本存儲的話,前面我們也講過,因為它是一個regions的一個服務,标準是通過HTPP的方式去訪問的,它的延遲自然是比較高的。那如果我們還去用COS的話那,我們GPU訓練的效率就上不來,自然我們整個你訓練的周期就會拉長。
問:在訓練推理階段用到的是異步模式,正常情況下Checkpoint是後面檢查完了之後再進行下一階段的訓練,有看到其實是并行的,在這個過程中Checkpoint如果出問題了,後面的環節是不是反而會更多的花費時間?
陸志剛:我們設計這個異步模式就是考慮到這一點,它如果是中間會出問題的話,那我們下面存儲的服務會去做一些重拾,數據不會丢掉,即使後端整個集群重啓,這中間緩存的數據也會在集群重啓之後刷入到後端的存儲。我們這裏做到的是客户使用原生的pinpoint(音)直接寫入就可以,有些友商也做了類似的功能,但是它是需要去改pinpoint結構,去給它打一些補丁,要求客户安裝補丁之後再去做到異步的操作。
問:看到騰訊雲用了檔案存儲、對象存儲來解決整個AIGC的問題,數據是怎麼移動的?
馬文霜:其實我們數據的話還是以整個COS數據湖作為底座,包括我們做完清洗你的數據的話,比如説我們現在一般用户它都會有一些數據平台它會去做一些數據的移動,比如説在我們的Turbo和COS之間做移動。
我們現在也有一些能力,像我們Turbo它其實跟我們底座COS它是打通的,其實我們之前有一些用户案例,因為跟這次的AIGC不是太相關,比如説它的數據它是先放在Turbo裏邊,一段時間以後我們可以通過Turbo下沉到COS裏面去降成本,相當于它在Turbo裏面只需要不太大的一個集群或者説容量來為它提供很好的性能,那這裏的話其實它就不用再去付出它有對應的存儲容量的成本,其實就是一個提升性價比的一個方案了。
問:對象存儲COS在推理和訓練中也會從上面讀數據,CFS Turbo打通的話它是不是就通過Turbo那邊直接在讀數據,對象存儲的數據不需要通過GooseFS了?
馬文霜:我們提供的方案有兩種,可以GooseFS作為加速,可以根據用户的場景用户自己來選擇了。比如説有些用户他喜歡更全的檔案訪問的語義,這個就是我們Turbo提供更全的訪問的語義,他可能更喜歡用Turbo來去完成的業務的處理。比如説有些用户他説我不想再去買一個Turbo,我就用COS加Goose加速器GooseFS那我也沒有太多的語義需求的話,主要是讀、寫、删,做一些最佳什麼的,其實GooseFS的話也能滿足它的訴求,主要還是説我們提供了多種解決方案,還是為了方便用户的使用。
問:就PC或者手機而言,怎麼看待存儲在雲端或者在本地?
陳峥:包括我們對象存儲也好,其實我們提供了全鏈路的安全訪問一些策略、措施,從數據的上雲、清理、網域訓練包括最後的訓練,就是我們對存儲的數據都是做了一些加密的,用户的訪問也是通過Tbps這種協定防止數據被篡改或者讀取。其實我們的數據跟計算都是盡量的把數據推到訓練所在的GPU或者一些清洗的一些CPU的附近,其實也就是你剛才講的盡量做到本地,其實雲上已經可以做到這種狀态了。你自己再去做一些私有化的部署,其實跟我們雲上所做的事情是類似的。
還有一個雲上能夠提供一個多住户的一個模式,可以基于我們計算資源也好或者存儲資源也好,用户它是按需或者説有一些雲上的一些錯峰也好,能夠給我們雲上的客户提供更優質的,成本相對低廉的或者效率更高的,有可能我們會利用我們整個雲上彈性的資源,就是説用户有一些業務突發或者有一些峰值的時候雲上能夠扛住的,反而你去做本地化的部署,你的資源就那麼多,你的業務一下子漲了2倍、3倍,其實你的伺服器就被打亂了。
騰訊雲的技術路線
問:騰訊雲一些技術架構上的創新,放在國際上或者業内的話怎麼看?對于存儲容量的需求不斷增長,如何看待當前的存儲需求上限和未來的發展趨勢?
随着用户數量的增加,大模型的性能和效果可能會提升,但這也導致成本的增加。随着模型參數的增加,總體成本仍在上升。是否現有的降成本措施在面對未來更大模型的需求時可能只是杯水車薪?
馬文霜:我先回答第一個、第二個問題。現在Turbo或者高性能存儲在國際上或者説業内吧,業内并沒有給用户提供一個開箱即用或者説用户需要這麼高的帶寬的時候它其實現在還是沒有很好的產品形态能夠滿足用户的需求的,包括剛剛我們提到的我們友商也在做一些OEM這樣的一個產品策略也是説想能夠快速的滿足用户對高帶寬的這麼一個訴求。
第二個,到底性能的天花板在哪裏。現在有點説不清楚,為什麼呢?因為我感覺大模型現在整個的技術甚至它的這種環境都不停的在變化,我們雲廠商要做的就是説我們能很好的跟随這個變化,當用户説後續還繼續去做對GPU卡去提升算力,去做更大參數的大模型,那我們也就只能去跟随,我們讓我們的存儲在這裏面能夠很好的幫助用户去做這樣的一個嘗試。
如果另外的一個發展方向是説可能是要把模型精簡化或者説去做不需要那麼大的算力,包括像現在也有一些創業團隊在去做,他們叫做更聰明的AI基礎設施就是我不需要這麼多的卡,歸根結底還是説我們也時刻跟随這個行業的發展趨勢,我們做滿足行業需要的存儲產品。
陳峥:第三個的話是這樣的,随着我們訓練參數的提升,它其實對模型所需要的算力更存力其實都是有不同程度的提升的,只是説我們整個雲存儲團隊在做產品演進和產品規劃的時候是我們盡量的去在提升我們產品規格和性能的同時能夠在客户使用存儲的時候能夠盡量的去幫客户提供更高性價比的產品,這個是我們整個雲存儲團隊的一個初衷。
但是説算力這裏,業界目前比較多的一個玩法是什麼呢?它會先訓練一個大模型,基于大模型上面再架小模型,就是去做一些微調,變向做一些性價比的提升,我不需要在多輪的基于大模型的去做,因為我大模型出來以後我基于小模型再去做一些微調其實也是可以達到它想要的效果的,這是目前業界普遍的一種做法。
基于這些考慮,我們在算力跟存力同時具備的時候,我們怎麼能夠在算力這裏能夠給客户提供更高性價比的產品是我們主要考慮的一個地方。
圖片來源:視覺中國
問:騰訊團隊内部包括跟混元這邊一塊去做技術判斷的方法有沒有一些可以分享的?
陳峥:我來回答一下這個問題吧。因為我們這邊跟混元對接比較多。是這樣的,混元它其實每到一個階段它會提一個訴求,就是説我們希望達到什麼程度。我們是基于混元提的它的訴求我們會去提前做一些預估或者做一些預判怎麼去提升或者做我們產品的一些迭代或者是優化去滿足整個混元對整個算力、存力要求的。算力這裏相當于混元它有自己的一些考量,這個不是我們團隊能夠介入或者説去幹預的。
AI 存儲的市場需求
問:騰訊雲現在的存儲技術,不止是對AI的訓練吧?
馬文霜:對,包括我們的數據清洗其實它不一定是For AI的,我們還可以更大的數據清洗場景,包括我們跟大數據生态結合起來,但大數據那一塊的能力的話,其實它不一定是AI相關的,還有包括像我們CFS Turbo的話,其實它還有很大一部分是在為隐私渲染,它其實也是需要很大的讀寫帶寬的。相對來説我們整個的方案的話它是我們之前服務了除了AI以外,除了大模型以外其他的場景其實都是是用數據清洗,我們的高吞吐、高性能的檔案存儲,我們的數據審核,其實大部分的用户的話可能只是用到其中的一個環節。
問:解決方案更新價格會漲嗎?
馬文霜:價格我們是沒有變化的。
問:現在來看哪些行業的客户可能會更願意買或者更需要這樣的服務?
陳峥:我們現在整個一套的雲存儲解決方案除了在AIGC這個領網域之外,其實我們在自動駕駛這個領網域其實案例是蠻多的,只是説自動駕駛它更側重訓練,它在推理這裏會稍微偏少一些。AIGC它訓練出它的模型之後,像目前比較多的C段的應用APP它其實是基于智能模型在做推理實際應用輸出,其實現在整個業内的一些AIGC的應用大家應該都體驗過,像KiMi是To C的一些東西,自動駕駛更側重在B端,用户通過它的路采數據上來之後,海量的數據去做一些清洗、分割,然後再去輸送到整個自動駕駛訓練場景,能夠產生一些模型的數據去輔助我們的車輛怎麼去規避一些路障,能夠自動駕駛行駛的過程。
除了我們同事剛才説的,還包括渲染,在一些電影動畫裏面去做渲染,其實也是用到我們整個雲存儲的解決方案。我們今天做的發布更新主要是應用場景是講AIGC,就包括我們自研的混元,包括我們外界支持的大模型之外,其實各行各業基于我們整個雲存儲的底座,我們雲存儲底座提供了更多的解決方案能夠适配各行各業。
問:方案裏面有提到騰訊雲是業内唯一雲原生自研并行檔案的存儲引擎,行業内其他廠商是怎麼做的?他們有沒有提供類似的產品?
馬文霜:現在行業内我們有些友商是國外產品為用户提供并行的檔案存儲的場景,這個也是業内一個通用的一個做法。為什麼呢?用户需要這樣高性能,就是這麼強的檔案存儲,但是現在由于友商前期的布局或者準備不足的話,現在的市場需求又是比較的迫切,去o一個商業化的軟體或者説產品也是順理成章的。
我們4年前就在布局高性能檔案存儲這一塊,剛好前期的布局和投入剛好在大模型的訓練這一塊派上了非常大的用場。
問:騰訊雲AIGC存儲解決方案的技術門檻是否适合外部客户使用?目前使用該解決方案的客户類型及其主要應用場景是什麼樣的?是否所有用户都需要這樣高級的存儲服務,或者MaaS等簡化服務其實已經能滿足大多數用户的需求?
陳峥:這個問題我來回答一下。我們整個自研業務裏面,包括我們混元大模型其實也是基于我們整個AIGC雲存儲的一個底座來進行構建的,包括剛才大家説的我們基于Checkpoint寫入其實也是基于我們的CFS Turbo高性能寫入的一個新的架構,包括數據的清洗這些也是基于我們對象存儲COS包括我們整個底座的存儲引擎YottaStore進行構建的。在整個效率上,具體的數據我就不説了,整個效率包括我們的訓練時間确實提升了2倍以上,從我們自研業務上來看。
從外部客户來看的話,AIGC清洗領網域的一些創業公司應用了我們整個AIGC雲存儲的整個解決方案之後,包括我們的清洗、訓練它的效率确實也得到了提升,包括在整個應對讀寫大帶寬的時候、高吞吐的時候,跑出實際業務的值已經超出我們當時的想象,确實提升有數倍之多。
馬文霜:我剛剛那個問題我稍微補充一下。我們其實兩年前我們發布了我們CFS Turbo的第一個版本,當時我們是100GB的讀寫吞吐,我們當時覺得這個讀寫吞吐已經足夠的大了,應該很多的業務已經用不到了,去年大模型出來了以後,大模型用CFS Turbo來去寫Checkpoint,我們發現其實100G還遠遠不夠。
我們實際業務場景裏面,現在在我們雲上實際的業務數據的話我現在也直接講了,基本上我們有200G以上的甚至有跑到300多個GB的吞吐的,所以説現在我們這一次把能力的話更新到了一個TB,也是説我們希望我們把我們能力更新了以後能夠更好的去讓這些大模型的用户能更快的加速它的訓練,提升效率。
未來趨勢
問:第一個問題,Metalnsight產品中跨模态檢索功能的技術細節是怎麼樣的?它怎麼創新性地在存儲層面滿足多類型數據搜索的需求?第二個問題,這一輪技術浪潮到來之後,對于存儲當下的一個變革以及未來的技術趨勢四位是怎麼展望的?
葉嘉梁:兩個問題,我可能倒着稍微解答一下。因為其實我們可以看到包括前段時間Sora再往前GPT Sora再到最近一些音樂相關的Suno等等現在各種大模型的應用出來。其實對于整個存儲而言,我們前面馬大師講整個大模型的時代下面我們需要怎樣一個存儲,其實我們要做的存儲最核心的根本是穩定性、性能,可能還有性價比。大模型來的時候我們可以看到除了從以前的文本輸入到現在後續的可能會有圖片再到後來的視頻輸入,所以不單止是説是輸入,輸出這一塊海量數據產出這一塊随之而來的是在整個過程中,不管是采集、訓練或者推理乃至説最後的存儲、分發等等也好,它對存儲的挑戰是很大的。我們要在此基礎之上提供更穩定的讀寫速度更快的,底層整個規模更高效的,彈性更高的等等相關的能力。這是對第二個問題的解答。
第一個問題,為啥剛才會有Metalnsight形态出來,我們可以看到今天的整個發布/整個解決方案我們是從采集,采集當然是基于我們現在雲上各種產品,比如説我們有千億服務MSP,有離線的千億服務CDM等等相關,以及各種生态的產品我們去做好協定的兼容,使得進到我們整個存儲湖的道路是被打通的,所以采集的路我們過往已經做了一些。在今天我們還有訓練,有推理,然後還有應用,那在應用側其實我們可以留意到現在國内的各種黑馬也好或者説我們各大的創業公司他們在應用側做了各種嘗試,也跑出來好多一些相關創業公司。在應用側他們會去基于類似GPT自研的各種大模型去做一些嘗試,所以在應用側我們是在AIGC場景所重要強調的。
那為啥我們的Metalnsight會提出來呢?其實我們可以看到我們一直説的雲存儲上雲,除了去享受雲上更豐富的算力、各種存力,其實數據上完雲之後是否更方便的去檢索了呢?這是在過往整個存儲我們所遇到的,包括客户給我們提的問題中經常提的一個問題數據上來之後你怎麼去快速的找到你所要的一個數據,怎麼去在我的海量的視頻檔案裏面我能找到我過往裏面我所要的一些精彩的瞬間,怎麼去通過我自然語言的輸入我能夠讓計算機能聽懂我人話的輸入能夠快速的去找出我相關的一些資源出來。所以我們基于我們的混元,還有底層内部的一些圖文大模型以及騰訊雲的向量數據庫我們整體搭建了Metalnsight這一個形态,讓存儲本身能夠基于它的我們叫Native AI,讓存儲本身的AI往上延伸出快速檢索的相關的能力。
這是對第一個問題的解答。
圖片來源:視覺中國
問:這個產品能不能算是大模型原生應用的一個產品?
葉嘉梁:從我們存儲來看相當于是對大模型跟存儲結合之後所延伸出來的一個產品。
問:那這個產品是不是更應該由混元那邊的人來開發,這個產品直接由存儲團隊來做好像有點奇怪?
葉嘉梁:是這樣的,其實混元它提供的更像是一個叫大模型,我們叫引擎,它是引擎能力之一,但其實存儲這邊有海量的數據,我們其實有入口,我們會有用户的更多它能授權的一些數據,另外也有客户最直面的一些訴求,基于這個引擎的能力,其實剛才前面也提到還有向量數據庫等等我們需要把它做一個結合之後,包括我們還會在這一層做一些微調再去呈現一個更符合用户場景的一些能力。
其實剛才有提到,其實我們預制了上千個離線模板,可能這樣更符合用户在使用對象存儲時候的一些場景。當然最核心提到的能力,就是混元那一塊圖文大模型一些推理的能力,可能有一些向量化的能力會是混元他們更專業的人來去做的,我們跟他們也有一些打通合作。
問:今年開始有一些聲音是説大模型其實從去年的百模大戰到現在重點到了一個多模态,這樣的變化對于騰訊雲存儲來説會有一些什麼樣的挑戰?會如何應對這樣的一些挑戰和變化?
陳峥:多模态這裏其實是根據不同的數據,可能就是文本、圖片、視頻,就是你怎麼基于不同規格的數據去延伸出你需要的一個模型,就包括之前我們做的文生文是一個模型,文生圖是一個模型,文生視頻可能又是另外一個模型。所謂的多模型跟跨模态,不管你輸入具體的數據是什麼樣的,我依據我的模型在後續推理過程中能夠給到他想要數據的一種形态。
在多模态這裏,我們在文生文、文生圖、文生視頻不斷演進的過程中,其實我們的存儲產品都是提前去做了一些考慮或者是一些布局或者是規劃,怎麼能夠面對海量數據的增長,以前文生文、文生圖片其實數據量沒有多少,包括模型訓練出來大小相當于是比較小的,反而現在文生視頻出來之後這個數據的量級是直接上了一個量級的,同時訓練出來的模型的參數以及包括剛剛説的檢查點Checkpoint有一個倍數的增長關系,所以就説在這裏我們在訓練模型需要,我們對我們底層存儲提的一些訴求其實是我們整個雲存儲團隊去做規劃和布局的,在業務需要同時我們能夠滿足客户或者説業務它需要的一種產品形态或者產品能力,這是第一個問題。
問:你們在更新解決方案的過程當中有觀察到大模型行業有發生一些比較重要的變化嗎?
陳峥:其實最開始整個IGC也是拿着比較先容易上手的一個領網域,比如説文生文這種是比較簡單的,你給模型問,模型給你一個回答,通過全網的輸入輸入你想要近似的一些答案可以做一些修改,現在用的比較多的像一些寫手的APP。
文生圖的話是為什麼呢?人在對話的同時可能你想要一些視覺上、效果上你想要的,就遊戲行業裏面比較多的就做一些美工、美化這種,我們整個騰訊公司的遊戲團隊其實每個人會基于自己的數據去訓練一個自己的小模型,基于這個模型它會喂一些數據產生出來它想要的一些圖片它再做一些美化和美工。這個時候效率提升蠻高的,本來是一周的工作他一天就可以完成了,這個也跟遊戲團隊做了一些溝通和交流,問他們現在基于文生圖的模型出來之後它效率提升的一個程度。
因為大家除了文跟圖片之後,它其實對視頻的效果其實也是有的,它是一層一層往上去提升的,可能到後面文生圖片出來之後,各家都出來之後可能會延伸出我們有可能想象不到的是一種立體感的一種產品形态,可能現在我也説不清楚,因為科技在進步,包括整個雲的產品、雲的能力,包括模型訓練這裏,大家對模型、算法、大模型的思考不斷演進的話,在底層支撐以及業務同時在同步與時俱進的時候,其實它可能會延伸出來一些新的產業形态,只是説這個產業形态我們也沒有想特别清楚,因為我們畢竟是打底座的,只是説我們希望有一個新的產品形态出現的時候,我們整個雲存儲團隊的產品能夠滿足客户的訴求,或者説滿足業務的訴求。
馬文霜:我再補充我們觀察到的變化,Q1的話,我覺得大模型企業在雲存儲的消耗同比增加了,可能是大模型企業拿到的投資更多了吧。
問:當下的空間和未來的技術展望,幾位老師怎麼看?
馬文霜:當下我覺得AIGC的應用雖然説也在爆發式的增長,但是我覺得還遠沒有到繁榮的一個階段,當下我們存儲首要還是解決的在大模型訓練這個階段,跟随着算力,跟随着網絡,讓它的訓練能夠高效的訓練出各種各樣,就是各種應用場景、各種行業的大模型出來。那天我看一個新聞就是説我們工信部認證的大模型都是180多個了,但我覺得這些模型其實還不一定夠,因為還有各種垂類行業的大模型我覺得甚至我覺得後面可能每個人都會有一個大模型。
這麼多的大模型出來以後,我覺得後續應用逐步的會更加的繁榮,那應用繁榮了以後AI生成的這些内容,我覺得會更加的是以指數式的爆發式增長。所以説現在我們存儲的發展的話,當下先解決快、性能高、高性價比的問題,後面的話我認為會是在智能存儲,就是葉嘉梁他做的這個方向,就是在數據的審核、數據治理、數據應用這個場景幫助更多我們的開發者、創業者、創業團隊去做它的數據應用,我認為是後續很重要的一個方向。
陳峥:我大概説一下,最開始AIGC出來之後,開始是文生文、文生圖,現在業界比較前沿的在文生視頻,怎麼通過文字能夠延伸出大家都想要的一段視頻,随着整個AIGC的發展,對數據它肯定會迎來一個爆發式的增長,以前是文本,現在延伸到圖片,然後延伸到視頻。在整個過程中對整個存儲底座包括我們存儲解決方案的要求只會越來越高,其實我們整個騰訊雲雲存儲團隊已經提前在這裏做了布局,不管是我們的對象存儲也好、檔案存儲也好還是塊存儲也好,以及我們的數據萬象以及我們的一些日志服務,其實我們對不同的場景選定了AIGC也好或者是自動駕駛這個場景也好,我們針對每個業務的場景其實已經在預言未來2-3年可能對我們整個存儲底座,技術指标也好或者説產品形态也好或者説產品能力或者規模各項指标的訴求我們已經提前在做一些預言,滿足未來2-3年或者3-5年業務的發展。
馬大師剛才也講了,除了我們的穩定也好、快也好,這個只是我們現階段在做的一個事情,其實我們像Metalnsight已經提前去在做一些布局,就是把我們整個數據的價值能不能開放給客户,帶給我們的客户,這樣的話能夠讓客户在存好的同時怎麼把數據用好,這樣才能把我們做存儲的初衷就是把價值反饋給我們的客户,這個是我們整個騰訊雲存儲團隊一直在思考并不斷去更新去迭代的一個過程。