今天小編分享的科技經驗:行業大模型,開卷!,歡迎閲讀。
" 文心一言看起來是匆忙上馬,我認為這個東西根本就不是為了賺錢,就是為了能趕 ChatGPT 熱潮,行業大模型才是真正能產生商業價值的東西。"
百度文心一言發布後不久,一位前百度員工對钛媒體表示," 去年 OpenAI 沒這麼火的時候,王老師(百度 CTO 王海峰)帶隊搞了 10 個大模型,就包括行業大模型,當時行業外關注不多,但如果現在看百度的布局,行業大模型其實是前瞻性布局,比 OpenAI 和微軟還早。"
如今,通用大模型喧嚣過後,行業模型正在逐漸占據聲量,也正印證這一現實:類似 ChatGPT 等基礎大模型賺的是 " 吆喝 ",很大程度上是起到教育市場、塑造認知的作用,人工智能真正要落地、要賺到現在的錢,還要看行業大模型。
即便是海外市場,ChatGPT 作為 C 端產品的部分屬性,熱度也已經逐漸減弱——根據 SimilarWeb 數據,前期 ChatGPT 的訪問量增長率驚人,1 月份的環比增長率為 131.6%,2 月份為 62.5%,3 月份為 55.8%,在 4 月份明顯放緩,環比增長率為 12.6%,到了 5 月,這個數字已經變為了 2.8%,并預計 6 月的環比增長率有可能為負數。
" 相信我們當中的很多人都試用過了 ChatGPT,也相信很多人試用過之後,已經将它放置一邊了,因為目前它和我們的工作基本上還是割裂的,所以用用就放下了。但我依然希望大家不要‘起個大早,趕了晚集’,因為這是一個會帶來颠覆性變革的範式革命。" 微軟(中國)公司首席技術官(CTO)韋青此前表示。
而基于 ChatGPT 或者大模型,打造的 B 端解決方案,正是解決大模型與場景割裂的良方。
國際上,微軟、亞馬遜等大廠也開始向企業級服務尋求商業化路徑,開始進行多個行業的探索;國内,諸如百度、阿裏、騰訊、華為都在快馬加鞭加速行業大模型投入。
此外,很多全球範圍内的行業龍頭和創業公司也正在探索行業大模型的前景,近日,北京市科委、中關村管委會也發布了北京市首批 10 個人工智能行業大模型應用案例。此外,相關技術路線的企業并購金額也屢攀新高……
但大模型賽道還遠遠稱不上擁擠——伴随技術迭代迎來飛躍式發展,各行各業正重新積累技術認知、塑造業務模式,一切才剛剛開始。
更新:千模大戰
如果説基礎模型是 " 百模大戰 ",行業大模型就是 " 千模大戰 ",就像樹幹長出樹枝,每個基礎大模型廠商都可以孵化數個行業大模型,大廠們的行動默契而一致。
" 雖然大家對通用大模型期待很高,但它不一定是滿足行業場景需求的最優解。"6 月 19 日,在騰訊雲行業大模型發布會上,騰訊集團高級執行副總裁、雲與智慧產業事業群 CEO 湯道生表示。
在混元助手沒有對外發布的情況下,騰訊率先發布了行業大模型,依托騰訊雲 TI 平台打造的行業大模型精選商店,為客户提供 MaaS 一站式服務,幫助企業客户構建專屬大模型及智能應用。從騰訊處獲悉,有關 C 端的通用大模型,騰訊将在後續發布官方消息。
這一系列舉措或許可以理解為,暫且不論混元基礎大模型的效果和進展如何,優先發布行業大模型,是在客户急需的情況下,騰訊确保自身聲量、搶占市場客户的必要之舉。
更早之前,華為雲人工智能領網域首席科學家田奇提到,華為把大模型抽成三個層級,L0、L1、L2,L0 就是大家所説的基礎通用模型,像 GPT-3,在基礎模型 L0 的基礎上,加上行業數據,混合訓練得到的行業大模型是 L1。
然後再把 L1 針對具體下遊千行百業的細分場景進行一些部署,得到細分場景的任務模型 L2,為了盡快降低生產成本、提高效率,如何從行業大模型 L1 中快速生產 L2 模型,還有部署 L2 模型到端側、邊側和雲側,這是非常重要的問題。
在 7 月即将舉辦的華為開發者大會的議程上可以看到,華為雲将對盤古大模型如何從基礎大模型煉成行業大模型進行一系列的解讀和發布。
在今年的阿裏雲峰會上,阿裏雲 CTO 周靖人也表示," 今天不是所有的企業都需要從頭開始訓練,也不需要大家從頭開始去做多種語料,包括大量的算力資源,從頭開始做大模型的一系列定制,我們希望今天通義千問模型之上,結合企業的場景、企業的知識體系、企業的行業特殊需求,產生一個個企業專屬模型。"
微軟也在做自己的行業大模型。4 月份,在國内,針對本土出海企業用户,微軟 Azure OpenAI Service 國際版發布了首批三套面向零售電商、制造業和數字原生領網域的 Azure 全球創新行業場景,集成 GPT-3、GPT-4、Codex、DALL-E 和企業級 ChatGPT 等五種大模型服務,幫助中國出海企業客户加速拓展全球市場。
" 千模大戰 " 一觸即發,但真正進入大浪淘沙的階段還為時尚早——整體來説,大模型還處于比較早期的發展階段,盡管行業大模型集中湧現,但這條賽道顯然有更大空間。
以金融行業大模型為例,其抽成券商、保險、銀行、新金融等不同領網域,每個領網域的下遊任務又抽成幾十上百種的子任務。
" 更重要的時刻,是接下來基于基礎模型,通過 SFT 等機制和構建出能夠高效适配下遊任務,并且在金融行業或者其他行業模型的下遊任務產生規模效應化的時候。" 在阿裏巴巴達摩院創新業務中心負責人陳海青看來,只是通過一些普适的非結構化數據做繼續訓練的行業大模型和場景,才算剛剛開始。
理智且現實的選擇
如果企業要做一個千億級參數的基礎大模型,需要單機群萬卡以上的算力,不僅要有 GPU 卡,還要把 GPU 的集群資源利用起來,大部分公司都無法做到。
而行業大模型顯然更容易實現,同時也兼具更廣闊的應用前景。
" 大模型賦能千行百業,但是對千行百業的場景要非常理解,不能指望訓練出千億或者萬億大模型,企業用户拿去就好用 ",瀾舟科技創始人周明説。" 從通用模型到行業模型,要針對用户的場景做最後一公裏的事情。"
在評估基礎大模型所需要的投入,權衡利弊與得失之後,企業客户迅速轉向行業大模型,廠商的精力也更多投入于此。
湯道生坦言,目前通用大模型一般都是基于廣泛的公開文獻與網絡信息來訓練的,網上的信息可能有錯誤、有謠言、有偏見,許多專業知識與行業數據積累不足,導致模型的行業針對性與精準度不夠,數據 " 噪音 " 過大。
但是,在很多產業場景中,用户對企業提供的專業服務要求高,容錯性低。企業一旦提供了錯誤信息,可能引起巨大的法律責任或公關危機。因此,企業使用的大模型必須可控、可追溯、可修正,而且必須反復與充分測試才能上線。
" 我們認為,客户更需要有行業針對性的行業大模型,再加上企業自己的數據做訓練或精調,才能打造出實用性高的智能服務。企業所需要的是在實際場景中真正解決了某個問題,而不是在 100 個場景中解決了 70%-80% 的問題。" 湯道生表示。
百度智能雲副總裁朱勇也表示," 從國内和國外的情況可以看到,真正做通用模型的并沒有那麼多,市面上有一些廠商做的實際上是比較小型的模型。相反,領網域模型特别重要,因為通用模型只具備通識能力,領網域模型可以跟特定行業、領網域的任務預期對齊,解決業務的實際問題,這個過程非常重要,但這個過程所需要的代價和資源遠遠小于從零開始打底層通用模型。"
同時他還判斷,未來基礎模型(底層通用模型)可能就幾家,但是結合專業領網域的數據、行業 know how,上面會長出很多不同類型的領網域模型,這些領網域模型将來會非常繁榮,支撐上層繁榮的領網域應用。
以百度智能雲和國網打造的能源行業大模型 " 國網 - 百度 · 文心 " 為例,百度智能雲與國網專家們一起,在通用大模型行中引入國網在電力業務積累的樣本數據和特有知識,并且在訓練中,結合雙方在預訓練算法和電力領網域業務與算法的經驗,設計電力領網域實體判别、電力領網域文檔判别等算法作為預訓練任務,讓文心大模型深入學習電力專業知識,從而真正解決能源領網域的實際業務問題,達到降本增效的目的。
朱勇表示,通用模型跟領網域模型的區别,可以把通用模型比作上了大學知識面很廣的人,他也許知道一些醫學的知識,但不能給病人做診斷,不是專業的醫生。而領網域模型就是在通用能力很強的基礎上,深入學習醫學知識,成為了一名專業醫生,可以在醫學領網域貢獻價值。
從具備很廣知識面的通用模型往專業的醫學模型,這中間所需要的資源代價,要遠遠少于從零到一開始建立通用大模型,但它強調的是有專業的數據,要有專業領網域的任務來驅動,來激發它產生這樣的能力。
行業大模型怎麼做
大模型本身就是一個新生事物,它改變了以往的軟體開發範式,廠商們更需要一套新的工具鏈和平台,幫助客户更早更快打磨行業大模型。
随着大模型時代的到來,最後一公裏的效率會大幅度提升。周明提到,新一代軟體開發範式正在形成,主要是基于企業 prompt 提供很多功能引擎,用户現在是助手可以提高效率,在這個基礎上把自己的用户體驗想清楚、設計好,就很容易地構造一種新的應用。
以文心千帆大模型平台為例,是面向企業開發者的一站式大模型開發及服務運行平台。不僅提供了包括文心一言底層模型(ERNIE-Bot)和第三方開源大模型,還提供了各種 AI 開發工具和整套開發環境,方便客户輕松使用和開發大模型應用。
諸如數據管理、自動化模型 SFT 以及推理服務雲端部署,廠商希望能夠實現一站式大模型定制服務。不同廠商的大模型構建平台能力基本相似,不同的是易用性、效果好壞、支持的軟硬體等方面。
" 做大模型确實不便宜,但最終能夠讓大模型服務推廣開來的原因只有兩個:第一個是模型效果要好,模型效果不好,其他都不用講,第二個就是成本。" 百度智能雲 AI 與大數據平台總經理忻舟表示。
在效果上,行業模型要依托于通用大模型。比如通識教育,如果沒有比較好的通用模型就沒法談在具體一個行業的應用效果。Bloomberg 和約翰霍普金斯一起推出的 Bloomberg GPT 就是例子,在它的數據分布中,通用基礎模型數據占一半,金融行業公開數據占一半,還有 Bloomberg 自己的數據占 0.6%。
" 任何一個模型要能達到較好的智能水平或者基礎能力,一定得在比較好的參數量訓練基礎模型,在基礎模型上再融入一些行業專業數據做行業模型。" 忻舟説。
百度的思路是先推出一個 " 大家夥 "(文心一言),一個非常完整的工具平台(文心千帆),然後根據客户實際需求提供差異化的模型服務,幫助客户做性價比最高的選擇,他們認為,價格不會成為企業擁抱大模型的瓶頸。
除了模型調用成本、訓練成本,百度還在幫助企業做進一步的成本下降,如果企業只是聚焦在自己相對比較狹窄的領網域上,百度也有相對低參數的版本,這樣在保證模型效果的同時,使用或者訓練模型的成本将會大幅下降。
事實上,打造行業大模型的成本沒有通用标準。
首先,不同的基礎大模型有不同的參數規格,軟硬體投入要根據模型的基礎參數和能力動态變化。如果是百億參數,一台 A100 卡也能跑起來,就能開始下遊任務。
當前比較集中的應用場景需求就屬于這類,比如知識管理類中智能問答、智能寫作、智能創作,還有泛互聯網營銷場景和代碼生成的需求。
其次,成本跟數據量和應用方向有關。當前全球大模型定價都是以 1000 Token 為基礎部門計費。如果企業的下遊任務很簡單,只需要幾萬 token 就能做好,那它的成本就非常低,需要的 GPU 卡就非常少。而構建一個行業大模型所需的數據量通常以 G 甚至以 T 為部門,那它的離線訓練成本就會非常高。
誰在搶跑?
大模型賽道玩家蜂擁而至,這次不僅僅是一線互聯網大廠,還有更多行業龍頭和創業公司加入。
哪些行業能率先突圍?或許從合作案例所處行業可以窺見一斑,如文章開頭的表格所示,金融、醫療、教育、自動駕駛等領網域應用頻繁。
例如,阿裏雲在四月份發布通義大模型時宣布已和多家企業已經展開了合作探索,首批合作的企業有 OPPO 安第斯智能雲、吉利汽車、智己汽車、奇瑞新能源、毫末智行、太古可口可樂、波司登、掌悦科技等。據介紹,金融行業、零售行業,以及一些面向大型 C 端的場景和行業已經積累了比較多的公開數據、場景數據,便于構建企業或者行業專屬模型。
據公開資料顯示,百度文心行業大模型的數量已經達到 11 個,覆蓋能源電力、金融、航天、傳媒、影視、汽車、城市管理、燃氣、保險、電子制造和社科多個領網域。
6 月 27 日發布的北京市首批十個人工智能行業大模型應用案例涉及能源電力、醫療健康、金融、自動駕駛、建築、科研、生活、問答等領網域。
據悉,6 月 27 日至 7 月 30 日期間,北京市科委、中關村管委會還将聚焦城市治理、醫療健康、科學研究、智慧金融、智慧生活、智慧城市等重點領網域,面向全市創新主體,将征集 80 餘項行業大模型應用案例項目。
但更多的客户正面臨一波新的知識積累和學習的過程。
" 我們和客户交流時發現,很多客户對行業大模型還不太了解,但會主動提出需要百度的行業大模型。" 百度智能雲 AI 平台副總經理李景秋説,這個時候會具體結合企業實際用的產品跟客户解析需求,例如希望行業大模型具備什麼樣的能力、用在什麼系統或應用裏面、這些應用到底被誰用、希望達到什麼效果……
這些問題問完之後,才會真正發現客户需要的是基于文心千帆的工具鏈 SFT 的大模型,還是要構建行業的預訓練模型。後者起碼需要幾個月、甚至上年的時間去構建部署——從數據的處理、算力層的資源配置等技術問題,到跟行業通用數據的長期訓練。
從基礎大模型喧嚣漸遠,到行業大模型華燈初上,邁入 2023 年下半年,一場真正的商業變革将加速啓動。
對比百度等國内廠商和 OpenAI/ 微軟在大模型領網域的路徑,也是一件頗有意思的事情——在 ChatGPT 呈現全球現象級熱度時,有聲音質疑,中國為什麼做不出來 ChatGPT,其中固然有技術環境、商業氛圍等一系列的復雜成因,最終很多人還是有一個粗淺的共識—— " 中國 AI 更傾向于業務應用和商業化的能力 ",直白點説,中國 AI 耐心更少,更想賺錢。
但反過來講,市場是技術發展的最大推動力,對于時間和節奏的把握,造就了不同的結果。就以行業大模型為例,微軟或是在等待技術的進一步成熟,或是覺得還沒到時機,慢了一步,國内廠商迅速從基礎大模型過渡到行業大模型,大模型落地于場景,才能有持久的生命力。
失之東隅,收之桑榆,以結果論,國内行業大模型跑得快,不是一件壞事。
>