今天小編分享的互聯網經驗:大模型之戰下半場:從通用到行業垂直,「向下」扎根,歡迎閱讀。
圖片來源 @視覺中國
文 | 第一新聲,作者 | 秋平,編輯 | 也行
近日,第一新聲聯合天眼查正式發布了《2023 年中國 AIGC 創新企業系列榜》,從基礎層、模型層、應用層三個維度展示了生成式 AI 的產業鏈布局。其中模型層主要包括通用大模型和垂直大模型(場景 / 領網域 / 行業大模型)。
目前基礎層只有頭部 " 氪金玩家 " 才有資格入局,不在激烈内卷之列。應用層是長在大模型上的 " 高嶺之花 "。而大模型作為生成式 AI 的基礎模型,為其提供強大的語言處理能力和廣泛的适用性。根據公開資料顯示,截至今年 10 月份,國内已經發布了 238 個大模型。" 百模大戰 " 正厮殺得異常火熱!
第一新聲從榜單評選與調研的過程中發現,國内大模型之戰正逐漸步入後半場。頭部科技企業的發力點開始從通用大模型,轉向行業 / 領網域等垂直大模型,開始「向下」扎根。
例如阿裡雲在 10 月 31 日不僅發布了通義千問大模型最新的 2.0 版本,還推出了八大行業大模型;9 月 21 日,華為雲發布了盤古醫學大模型;9 月 19 日,百度正式發布國内首個 " 產業級 " 醫療 AI 大模型——靈醫大模型。可以說繼 "AI For Science" 之後,大模型已然開始步入 "AI For Industries" 階段。
為了深入研究通用大模型和垂直大模型的發展方向和應用效果,第一新聲特别采訪了 3 家企業,以各家企業的實踐為出發點,全面介紹了通用 VS 垂直大模型的演進方向。
01 國内大模型超 200+,聚焦 3 大基礎應用場景
從年初 ChatGPT 橫空出世至今,引爆了國内外大模型的熱情,各路資金蜂擁而至。
據相關媒體報道,目前全球最大的大模型開源社區 Hugging Face 上的預訓練模型數量,已經從此前積累的 10 萬個增長到了超過 30 萬個。不知 Open AI 當初發布 ChatGPT 的時候,是否預想到會有如今的盛況。
回歸國内市場來看,據公開資料不完全統計顯示,截至 2023 年 11 月底,國内已經有 200+ 大模型推出,并且在各行各業 " 落子不斷 "。從統計數據來看,除了通用大模型外,在金融行業的落地速度最快,有近 15% 的大模型都是金融垂直大模型。
在大模型廠商類型方面,國内互聯網科技公司紛紛入局,包括百度、阿裡、騰訊、華為等大廠,科大訊飛、商湯科技、曠視科技等垂直于 AI 領網域的廠商,以及智譜華章、百川智能、達觀數據、等大模型初創企業,還有金融、汽車、教育、智能家居、消費電子等垂直行業企業也基于垂直領網域人工智能技術和數據積累等能力,推出大模型。(點擊《2023 年中國 AIGC 創新企業系列榜》,查看國内通用大模型和垂直大模型企業榜)
值得注意的是,今年上半年,大家關注點主要集中在大模型的參數數量和效果優化上。從下半年開始,将關注重點轉向如何實際進行應用,以及企業怎樣利用其能力帶來革命性提效。第一新聲采訪到的三家企業,經過半年實踐,也逐漸摸索出各具特色的大模型發展道路。
例如沃豐科技于今年 4 月推出的 " 原心大模型 ",其解決方案吸收了通用大模型能力,并在營銷 + 服務領網域的 8 年經驗基礎上進行行業知識訓練,将通用大模型轉變為行業專家,并能依托企業信息搭建專屬知識庫。目前沃豐科技已成功将該大模型應用于旗下 Udesk、GaussMind、ServiceGo、微豐四大產品線。
沃豐科技 AI 算法專家趙超表示:" 大模型對算力和數據有巨大需求,而沃豐科技自成立以來就積累了大量線上文字、文本和語音數據。基于現有數據,公司計劃針對行業或特定場景進行模型迭代。為此,團隊采用行業開源模型,并利用自己在客服行業積累的數據,進行模型的優化和創新,以更好地滿足行業需求,并提高在特定場景中的應用效果。"
在大模型全量參數的迭代中,會遇到一些技巧和語言問題,為此沃豐科技采取了兩種訓練策略。一是固定一部分參數,只對其餘參數進行迭代。二是在通用大模型基礎上,進行小模型迭代。
雲從科技在 5 月份正式推出 " 從容大模型 ",最大的特色就是雲從科技具有多模态系列大模型,并具有對行業大模型的調整能力,可以根據行業場景需求去幫助客戶部署模型,實現性價比最優。7 月份雲從科技攜手華為正式聯合發布了 " 從容大模型訓推一體化解決方案 "。該方案基于雲從從容大模型算法及工具,使得用戶可以輕松地訓練、構建和管理自己的大模型。
對于國内市場的繁榮現象及公司在大模型方面的規劃,雲從科技副總裁張立向第一新聲表示:" 實際上,公司兩年前就已經在大模型領網域進行技術儲備。由于此前芯片和算力沒有達到高水準,導致大模型無法充分發揮其效能和效率。去年以英偉達為主導的 GPU 芯片性能有了顯著提升,尤其是并行計算能力,這使得大模型的訓練更具產業化,得以成為可能,這才推動了今年大模型產業和市場的蓬勃發展。"
達觀數據推出的 " 曹植 " 大模型是國内首批垂直行業專用、自主可控的國產版 GPT 大語言模型,具備長文本、垂直化和多語言特性,擅長長文檔寫作、審核、翻譯等。
" 一直以來,達觀數據都專注于 ToB 領網域,在金融和制造等行業積累了深厚的專業經驗。我們采取的落地路線是将大模型引入原有產品中,為客戶提供更有價值的服務。例如,達觀的智能文本處理平台 IDPS 以往主要偏向文本抽取,需要标注、訓練、調優等復雜步驟才能實現效果。而現在通過大模型能夠實現無标注的自動抽取,顯著降低了交付成本。讓企業真正實現了降本增效。" 達觀數據 CTO 紀達麒說道。
第一新聲通過與三家受訪企業交流及此前調研發現,目前企業對大模型常見的基礎應用場景有以下三個:第一個,企業想要利用大模型直接生成文章、圖片、設計等,那麼用 GPT 或者其他開源大模型稍微 Fine-tune(微調)一下就可以直接使用,後續的工作也主要是進行前端頁面設計,不需要進行過多的模型迭代。
第二個,企業希望大模型在提供服務時體現出企業屬性,比如回答與企業相關的問題。這種情況下也很難為每個企業快速迭代出一個專屬模型,再加上企業的情況随時都在變化,對應模型也需要不斷調整。因此,将企業知識庫和大模型進行結合是一種可行的方案。
當然也有企業會對自己的知識庫有保密需求,不願意将其提供給外部模型。在這種情況下,也可以基于自己訓練的模型進行部署。部署方式通常有兩種:一種是在企業自有模型的基礎上,使用企業知識庫進行迭代,另一種是先通過 RAG(RAG:Retrieval-Augmented Generation 檢索增強生成 ) 加強大模型理解能力,再結合知識庫。RAG 最直接的優勢就是能夠讓大模型利用自身的邏輯推導能力,去理解企業私有數據,實現問答能力的拓展。
第三個,數據分析亦是一些企業常見場景。傳統的報表配置方式復雜,而且當報表眾多時,尋找特定報表很費時。通過大模型的自然互動方式,用戶可以直接提問,實現智能化的數據查詢。這種互動式的數據分析方式直觀高效,用戶可以快速獲得所需信息,大大提升了使用體驗。
02 通用 VS 垂直:各有千秋、互補關系
通用大模型和垂直大模型各有其獨特的能力,它們之間是一種互補關系。
因為通用大模型具有強大的語言理解能力,能夠拓寬應用範圍的廣度,而垂直大模型則瞄準特定行業或需求,在精度和深度上更能滿足實際要求。這兩者不是對立面,而是相互支持、協同發展的關系。未來,兩類大模型将會共生,成為賦能千行百業的關鍵。
對于這個觀點,紀達麒也表示同意,"通用大模型和垂直大模型針對或解決問題的目标不盡相同,通用大模型需要具備更強的泛化性,而垂直大模型則必須要在垂直行業内的應用中保持高準确度。"
提及通用大模型和垂直大模型的落地空間,他認為有一個核心不同是在客戶需求方面,不同層次和規模的客戶對大模型的要求有所差異。例如在 ToC 端或中小型 B 端企業中,客戶對模型的效果要求較低,但更看重成本的控制。因此,他們可能會選擇使用通用大模型來解決部分問題,以期用較低的成本實現水準以上的效果。
然而,對于一些大型 B 端客戶來說,提升效果能力很大程度能對他們的業務帶來重大影響和價值,因此他們願意投入更多的成本。這些客戶可能會選擇訓練垂直大模型,或者利用像達觀數據這樣的專業垂直大模型服務,以獲得更優秀的效果。在這種情況下,客戶的關注點不僅在于成本,更在于如何實現最佳業務效果。
因此,在大模型的應用中,靈活選擇适合特定業務場景的模型策略是非常重要的。
趙超也表示,通用大模型迭代成本較高,需要大量的算力支持。相反,垂直大模型的決策成本較低,所需的算力較小。但垂直大模型根源始終在通用大模型,通常都是基于通用大模型采用 SFT 監督微調(Supervised Fine-Tun-ing)等方式訓練而來。并且,如果通用模型的基礎能力較強,那麼垂直模型的調優成本也就相對較低。
在驗證算法和策略時,由于垂直大模型可以在較短的時間内進行迭代,驗證效果,因此企業通常會優先在垂直模型上進行驗證和調優驗證完成後,再将經驗應用到通用模型上,從而提升通用模型的能力。待通用模型得到有效提升後,再對行業模型進行迭代。是一個螺旋式的循環過程,促進垂直模型和通用模型相互借鑑、相互補充,而不是往單一排斥方向的發展。
張立表示,從行業應用角度來說,通用大模型不是一個產品,而是一種能力。企業想要購買這種能力,通常要滿足三個條件。"第一,要有充足的資金儲備。第二,要有所在行業構建專屬模型的數據和 Know- how 積累。第三,要有相應的技術能力。了解大模型技術的底層原理,以及如何訓練出符合自身需求的模型這種能力的靈活性使得客戶可以更好地利用大模型技術,滿足其特定領網域的需求。"
另外,張立也強調,大模型的落地應用不可能是兩頭擔子一頭熱,取決于兩端。一方面供應側要具備垂直行業落地大模型的積累和能力;另一方面,需求方要想清楚自己需要用大模型具體解決哪些問題,達到什麼目标。
不過,在趙超看來,定制模型在垂直行業中可能具有更高的價值,主要表現在兩個方面:一是垂直行業模型可以更好地滿足企業特定需求,為企業創造更多的商業機會。二是使用不同大模型會帶來顯著的成本差異。因此,企業可以選擇在大模型上進行優化訓練,将數十億參數的大模型壓縮到幾億參數規模的垂直模型。
" 一種可行的解決方案是,利用大模型進行數據标注,然後用較小規模的模型進行訓練。這樣既可以為企業提供垂直模型的優良效果,又可以降低硬體資源的使用門檻,從而在一定程度上減輕企業的成本負擔。通過精細調整模型參數規模,既可以滿足特定行業的需求,又可以在資源利用上實現更高的經濟效率。這種策略有助于為企業提供更靈活、可持續的模型應用方案。" 趙超說道。
未來像聯合利華、麥當勞、可口可樂等巨頭企業大概率都會訓練出專屬大模型。趙超認為,雖然從外部看來這是企業私有大模型,但其實一種訓練方法是利用企業自有大量數據訓練出一個完整模型。另一種方法是采用向量數據庫(vector database)策略,将内部數據轉換為向量,再對向量進行處理,得到一個較小的模型,與大模型結合使用。這種方法可以達到單獨訓練模型的效果,而且成本也較低。" 從客戶使用側來說,輸出的模型的帶有企業特征和特色,但從技術角度,本質就是大模型加小模型的疊加使用。"
他還認為,未來這種 " 大模型 + 小模型 " 的方式在實際應用過程中,可能會很大程度上成為主流落地方式。因為對基礎模型進行頻繁迭代是困難的,而且需要高算力。除非是為了技術研究,否則購買大量算力很大可能會造成資源浪費,而且收益不明顯。
03 如何突破算力、數據、算法三大門檻?
大模型的應用離不開算力、數據和算法的支持。這意味着中小企業或算力不足的企業,要想應用大模型門檻會很高。
一是在算力方面,企業可以嘗試在不增加硬體成本的情況下,增加迭代次數,提高模型的收斂速度。同時,也可以通過将浮點數轉換為定點數,以及對大規模矩陣運算進行預處理,來降低計算復雜度。這些方法都可以有效地節省算力資源,提高模型的訓練效率和整體性能。事實上,學術界已經在矩陣運算方面取得了一些突破,例如目前學術界提出了一種針對超大矩陣的快速計算方法,比傳統的行列計算方式快了幾十倍。
對于算力方面,趙超的觀點是,一方面,算力不足的企業可以考慮用小規模算力做實驗,驗證大模型的應用效果。這也是企業内部和學術界要思考的優化方向之一。 另一方面,Few-shot Learning(小樣本學習)和 Zero-Shot Learning(零樣本學習)是目前備受歡迎的大模型訓練技術。它們可以在數據不足的情況下展現出強大的學習和推理能力。數據不足的企業通過這種方法可以有效地應用大模型,優化性能。利用這兩種方法,可以持續優化和創新性促進大模型技術的廣泛應用。
二是在算法方面,也需要探索更适合大模型的結構和方法。目前,大多數大模型都是基于谷歌提出的 Transformer 模型構建的。然而,Transformer 模型并不一定就是最優的選擇。例如,一些研究者在 Transformer 模型的基礎上引入了 ResNet(深度殘差網絡)等其他結構,并在影像領網域取得了不錯的效果。因此,對于算法的創新和優化仍然是一個有前景的方向。
三是在數據方面,需要考慮如何提高數據的質量和适用性。随着互聯網數據的爆炸式增長,數據的類型和形式也變得更加多樣和復雜。對于非結構化數據,需要預先對其進行結構化處理,以便于模型的學習和理解。同時,還要對數據進行清洗和篩選,去除其中的噪聲和雜訊。
以上這些路徑都可以有效地提高數據的有效性和可靠性,從而提高模型的泛化能力和适應能力。
針對大模型的未來發展,張立的觀點是,大模型技術的發展會從研發驅動轉向生态驅動,這是一個必然的趨勢。客戶對于大模型的需求會越來越復雜,大模型廠商無法直接解決客戶所有問題,也不可能對所有行業的 know- how 都有全面和深刻的掌握。因此大模型的落地應用需要借助各個行業内的專業信息化服務公司協同支持。
" 這種合作模式能夠更有效地應對不同領網域的專業需求,讓大模型的應用更快速和深入地滲透到各個產業鏈中。而且通過與信息化公司的密切合作,大模型廠商還能夠構建起生态系統,讓大模型的發展更加全面和可持續。" 張立說道。
04 大模型落地兩大難題
盡管大模型的發展目前非常活躍和熱鬧,但在實際落地方面仍然存在兩大難點。
難點一:如何找到合适的應用場景?
紀達麒表示,要想讓大模型技術真正落地,不僅要依靠大模型本身,還要考慮中間實施過程和到達最後一公裡的路徑,即設計出合适的產品形态,選擇最優的性價比,控制好機器資源成本,最終找到最佳的落地效果。因此,需要有既懂大模型又了解行業的專業人士,來共同解決這個問題。
在 ToB 行業化中,一個主要問題是監管難度的提高。在 ToC 端,也要面對備案等法規要求。傳統互聯網時代,能夠以相對容易地方式審核文本内容,及時發現和處理一些涉及意識形态等有問題的内容。但是,大模型讓監管難度顯著增加。因此在落地過程中,如何進行有效監管成為一個亟待解決的問題。否則會面臨濫用、不當使用或者其他潛在的法律問題。在解決監管問題的同時,還需要思考如何讓更多的人從大模型的應用中受益。一言以蔽之,如何保證合理監管和推動社會效益之間的平衡是一個全行業都需要認真思考和解決的關鍵問題。
" 達觀數據的工程師團隊在客戶提供數據後,會根據具體情況進行處理,做到這一步其實還算順利。但更難的問題是,如何結合大模型,充分發揮數據的價值,賦能企業實現更明确的業務目标。這就需要制定清晰的業務策略,明确產品的功能和特性,以及确保整個過程能夠有效地滿足客戶的需求。" 紀達麒強調道。
因此,當前所有企業面臨的挑戰是對大模型應用的戰略性思考,以及将這些思考轉化為具體的產品設計和實施步驟。要解決這一挑戰,需要綜合運用數據科學、業務洞察和技術專業知識,形成一個全面而可行的解決方案。最終,通過深度戰略規劃和清晰的產品設計,更好地發揮數據和大模型的潛力,實現更有針對性和有效的業務成果。
如今,人們的關注點不僅僅是如何開發出優秀的大型模型,更多的是如何更好地應用這些模型。這就需要考慮解決方案的層面,特别是用戶的體驗層面,而不是只局限于像 OpenAI 聊天能力這樣的應用,或者只是解決類似于搜索引擎的問題。
當前和未來的趨勢也表明,人們希望在更多場景中應用人工智能,并把它作為底層平台。這就需要企業進行從 0 到 1 的創新,不斷找到一些适合落地并能夠大規模推廣的場景,從而有更多的落地靈感和方法論,增強大家對這一領網域的信心。我相信明年大模型的落地一定會非常多。
難點二:戰略規劃和軟硬體設施很難完美兼容。
張立解釋造成該難點因素有五個方面:一是客戶的目标不明确,導致無法達到預期的效果。
二是很多客戶對大模型的認識不足,誤以為這是一個成熟的產品,買來就可以開箱即用。
三是即使前兩個問題都解決了,為客戶制定了詳細的落地計劃,分階段地推進大模型在客戶企業内的應用。但是,在這麼長的一段時間内,誰也無法保證,客戶的戰略目标是否會發生變化?這就涉及到客戶在大模型上的戰略布局的穩定性和持續性。
四是大模型的落地必須是一個雙向的過程。客戶是主角,技術公司是 " 教練 " 定位,負責陪伴和指導客戶前進。但由于使用大模型對企業技術能力要求比較高,而很多客戶技術部門的信息化能力都很傳統,最終導致客戶完全依賴技術公司,讓技術公司從 " 教練 " 變成了主角,發生關系錯位。這是嚴重有問題的,因為技術公司的目标是賦能多個產業,不能只專注于某一個客戶。
五是大模型在垂類市場的應用,不僅僅考慮模型能力,還要考慮硬體配置但不可能讓客戶把原來的硬體都徹底換掉,颠覆其原有的系統,更重要的是考慮和原有系統的整合。這需要有工程化和集成的能力,幫助客戶大模型技術和已有資源合理整合起來。這就涉及到原來的系統、軟體、數據庫和硬體等的兼容性問題。
面對上述的難題,紀達麒的觀點是人們要達成兩點共識。首先,未來可能只有少數幾家廠商具備高質量的提供底層通用大模型的能力,而垂直大模型和其產業化應用将迎來非常多的機會和競争。未來企業内部,可能會同時将多個大模型結合起來,一起來去解決企業内部的各種問題。其次,企業的目标是利用 AI 來解決問題,而不是單純地和 AI 結合。因此,企業需要思考如何讓人和機器更好地協作,且以解決問題為出發點。不是為了用大模型而追捧大模型。
張立也持同樣立場,她認為在利用大模型解決根本性問題時,需着眼于技術和產業化的有效結合。大模型廠商關注的焦點也應當是構建基于模型的應用或產品,以滿足客戶的實際需求,而不是為了推廣大模型而用大模型。若發現從容大模型無法勝任任務,雲從科技可以轉向使用其他大模型,甚至包括開源模型。大家的目标始終是以協同之力解決客戶所面臨的實際問題。
" 過去很多應用從用戶側或許并不盡如人意,而引入大型模型則可以使其更加出色,更深刻理解用戶需求,實現更高程度的自動化。企業今天不是要颠覆原來所有應用,而是在其基礎上增添大型模型的強大能力。通過雲化降低成本或提高訓練效率,并迅速将這一技術產業化,使更多客戶以更為合理的成本享受大型模型的優勢。" 張立補充道,
在 AI 落地的過程中,大型模型應該是人類的夥伴,而非替代者。