今天小編分享的互聯網經驗:對話竹間智能簡仁賢:做大模型不能唱高調,企業需要低成本、平民化的模型產品,歡迎閱讀。
作者丨何思思
編輯丨林覺民
2015 年從微軟離職的簡仁賢,創辦了竹間智能,從成立之初,竹間智能就專注于 AI 技術的研發,并在 NLP(自然語言處理)領網域下足了功夫。
但值得注意的是,彼時國内對 NLP 的研發還處于空白,也沒有一款成熟的 NLP 產品出現。竹間智能作為一家初創企業為何選擇去填補這塊空白?
其實從簡仁賢以往的履歷中就能得到答案 "2006 年加入微軟負責 Bing 核心產品的研發、2012 年擔任微軟亞洲互聯網工程院副院長,負責微軟亞太地區的搜索及 AI 產品的技術研發,并主導開發微軟小娜 ( Cortana ) ......"
可以說,這些寶貴的經驗是竹間智能研究 NLP 的彈藥,但這并不意味着其 NLP 的研發之路是一帆風順的。創辦初期,簡仁賢帶領團隊專心搞研發,2017 年開始嘗試做商業化探索,2020 年形成規模化發展。目前竹間智能已經為 600 多家客戶做了 NLP 的落地。
轉眼到 2023 年,在人們還在談論大模型怎麼做的時候,竹間智能就推出了大模型工廠 ( LLM Factory ) 。很多人認為,這是其長期深耕 NLP 技術,厚積薄發的結果,簡仁賢也并不否認這一點。
同時,雷峰網還了解到,早在 2021 年 GPT 2 剛出來時竹間智能就開始研究,并逐漸把機器學習平台往大模型上遷移。因為在簡仁賢看來,等大模型火了之後再做就來不及了,很多東西等所有人看明白後再去做就是紅海了。
反觀國内大模型的發展,确實如此。從大模型的概念火出圈後,國内出現了多家大模型產品,諸如百度的文心一言、阿裡商務千義通問、訊飛星火認知、商湯日日新 ... 比比皆是,有關大模型的讨論也都是 " 參數是多少、做到什麼程度了等等。"
簡仁賢坦言,現在人們更願意每天在媒體上面看谷歌怎麼樣了,Meta 怎麼樣了,OpenAI 怎麼樣了,誰誰誰怎麼樣了,這些都是趨勢,不能反映企業内部的問題,這時大模型廠商真正要做的是,在企業預算資源有限的情況下,幫助企業把大模型融入到業務系統中,做增強,做賦能。
" 竹間智能不會開發布會譁眾取寵,也不會向别人吹噓自己的技術有多牛,而是讓每個人都用到這項新技術,創造出能給用戶帶來價值的大模型產品。"
對此,簡仁賢還特别舉例道:" 如果你和家裡人說我有個大模型,他們可能無法理解你在說什麼,但如果你說有個 APP,你只需跟它說幾句話,它就能幫你寫信,他們反而能迅速理解并接受,他們才不會關心你背後是大模型還是什麼。"
以下是雷峰網和簡仁賢的對話:
像特斯拉 Model 一樣,做量化,讓大模型更平民化
雷峰網:從什麼時候開始關注大模型的?
簡仁賢:實際上我們已經在大模型的研究領網域耕耘超過兩年的時間。自 2021 年 GPT2 問世,我們就開始關注了,并将機器學習平台向大模型開發方向遷移。
雷峰網:大模型工廠 ( LLM Factory ) 是大模型火了之後開始做的嗎?
簡仁賢:不是,從 2021 年起,盡管大模型當時并未大熱,竹間就開始關注大模型了,2022 年中開始研究,現在我們已在内部進行應用實踐。
雷峰網:為什麼開始的這麼早?
簡仁賢:大模型火了之後,後期投入的企業面臨逐漸飽和的市場,也就是紅海。越早開始,積累的經驗就越豐富,而後期投入則不可避免地要面對各種問題,這些問題我們往往已經解決過,現在的道路已經相對平坦。我們在自然語言處理(NLP)領網域的深耕已有近 8 年,大語言模型也是 NLP 領網域,最大的突破是生成式 AI 以及将大語言模型訓練工程實現,現在企業面對的挑戰是如何克服大模型的落地的種種挑戰,将大語言模型應用到業務場景中,達到業務的效果,而不是只有炫技。近 8 年來,企業對我們的信任度高,我們也深入理解他們在 NLP 的需求,有助于企業将大語言模型落地。
雷峰網:大模型工廠 ( LLM Factory ) 具體可以做什麼?
簡仁賢:大語言模型工廠 ( LLM Factory ) 的運行機制非常復雜,整條模型訓練微調的流水線從數據梳理清洗,人工标注,到選擇預訓練基礎模型,實驗不同的微調方法,不同人物進行多次微調,并評估模型結果,再加入人工反饋強化學習機制,上下文學習,等等,進而自動化地完成模型交付。如今,我們已經拓展了原有積累多年的自動化機器學習平台和數據标注運營平台,因此在這個系統上,我們可以訓練微調出許多不同的大模型,依照企業的需求,實現專屬于企業的定制化行業大模型的落地。
各種模型都可以有不同大小的 size, 不同數量級的參數,這就好比我們喜歡的衣服有 S、M、L、XL、XXL 各種尺碼,我們可以從以前的 S 尺碼模型做到現在的 M、L,甚至是 XL 尺碼的模型。而且,我們所做的是能批量生產的模型,就像特斯拉的 Model 系列一樣,我們并非只做一款模型,而是要能生產出 N 款模型。
雷峰網:竹間做這件事情,對企業最大的好處是什麼?
簡仁賢:對于絕大多數的企業客戶來說,他們無法投入數千萬資金進行從 0 開始的基礎大模型的預訓練,即使有資金也無法做得到,數據,算力,know-how,維護等。那竹間提供的大模型工廠 ( LLM Factory ) 可以在短時間内,快速且低成本的,幫助企業構建自己的大模型,将其部署到本地并與現有系統融合,從而協助企業進行業務的更新。客戶将可以直接看到效果,竹間提供從準備數據,模型微調,最有效的微調方法,将微調訓練的 know-how 開發到 EmotiBrain 的模型工廠中,而且成本相對較低,無需自備 GPU 資源,既可以享有定制化的大模型。
雷峰網:所以讓客戶低成本的享受大模型的能力,也是我們重點要做的?
簡仁賢:我們的目标就是将人工智能平民化,讓所有的企業都有自己的大模型,都能負擔得起的大模型,甚至我們設定一個目标:成立 99 萬大模型試驗室,讓企業在 99 萬的預算内即可打造一個企業自有的大模型,讓大模型變得更為平民化。此外,我認為企業所需的并非僅僅是一個大模型,而是多個大模型,使用 EmotiBrain Model Factory,能高效訓練微調大模型,更能進一步降低成本。
雷峰網:和以前相比,客戶的态度有轉變嗎?
簡仁賢:我們之前也推廣過大模型,花費了大量時間去教育市場和客戶,但是由于門檻比較高,客戶也需要購買 GPU,當時很多客戶并沒有充足的預算,也無法理解大模型能帶來的實際效果,所以推廣效果并不明顯。
随着今年大模型的爆發,現在大多數客戶都明白了大模型能夠給企業帶來什麼樣的價值。目前,我們正在與數十個客戶進行商談,他們對大模型還是比較接受的。
大模型自研與否不重要,關鍵要走最後一公裡路
雷峰網:您怎麼定義竹間在大模型方面的服務模式?
簡仁賢:我們提供 Model-as-a-Service,模型即服務,這意味着我們的產品和工具平台可以快速幫助客戶構建模型,而且這個模型可以迅速地與企業的業務系統進行連接。這就避免了客戶需要購買大量的 GPU,或是糾結于如何選擇合适的模型,或者是走進大筆經費的無效投入。我們會根據客戶的需求幫他們定制适合的模型,無論是 70 億參數,130 億參數,還是 650 億參數的大模型,都在我們大模型工廠 ( LLM Factory ) 的服務範圍内。
雷峰網:具體怎麼幫企業選擇合适的模型?
簡仁賢:EmotiBrain 有大模型商店,裡面有預訓練好的行業大模型,不同任務的專有模型,我們還擁有一套實際的 Benchmark 系統,可同時訓練,評估,及比較多個大模型。比如,設定三種模型,三種不同的微調訓練方法,以及三種不同的訓練數據,就可以訓練出 27 種不同的模型。完成訓練後,我們的 Benchmark 系統可以對訓練結果進行比較,然後根據客戶的不同業務場景與目标,為他們選擇最合适的模型,企業不再需要花大錢組建模型訓練團隊。
雷峰網:竹間的大模型是自研的還是?
簡仁賢:我們的大模型開發有兩種方式:一是自主研發,二是基于其他預訓練的大模型進行開發。
種方式我們都采用,快速在企業場景中,落地應用,快速驗證可商用化。如果堅持所有事情都從零開始,在企業落地階段,可能并不現實。
雷峰網:所以您認為,大模型是不是自研已經不重要了?
簡仁賢:坦率來說,目前絕大多數的生成式 AI 都是基于谷歌開發的 Transformer 開發出來的模型, 如果谷歌沒有開源 Transformer,OpenAI 就沒法開發出 ChatGPT,也就不會有 GPT 4;之後谷歌的 PaLM 2 也用了 GPT-4 來生成訓練數據。此外,最流行的開源大模型是基于 Meta 開源的 LLaMA 模型 ( 參數權重需要商用許可 ) ,大多數 2023 年發布的大模型也都是機遇開源的基礎模型框架來訓練的,或者是基于不同模型用不同數據與不同訓練方法開發出來的,未來的軟體世界,實用的,可商用化的,都不會是原始的基礎模型。
雷峰網:那什麼才是最重要的?
簡仁賢:真正重要的是,最後用大模型驅動做出的產品是否有實際應用價值。就像我剛才舉的例子,Transformer 是谷歌開源的,但是在谷歌的 PaLM 2 中使用的訓練數據是從 GPT 4 產生的語料中獲取的。那麼 GPT 4 的訓練語料是誰做的呢?并不一定是 GPT 4,可能是收集其他軟體的人類使用數據,如 Twitter, Reddit, 等。因此,未來軟體的新範式應該是:誰能夠做出讓用戶享受到成果的產品,誰能夠把最後一公裡打通,就是最有價值的,當然要能保障數據安全,模型安全,并與人類對齊。
雷峰網:這樣一來,微軟谷歌做的事情豈不是都沒有價值了?
簡仁賢:實際上,OpenAI 并不僅僅是打底層的工作,他們也在進行應用開發。微軟也同樣如此,他們使用 GPT 4 為 Office 全家桶和 Bing 等產品做了更新,他們所做的就是 " 最後一公裡 " 的工作。谷歌也是一樣,與 OpenAI 一樣開發 AGI,并且在為自己的產品以大模型的能力更新,谷歌和微軟的大模型都還是閉源的。
大模型 + 知識 + 應用,才是未來軟體的範式
雷峰網:業界有人說以前的軟體範式是信息 + 連接,未來是知識 + 陪伴,您認為未來軟體的新範式是什麼樣的?
簡仁賢:我認為未來軟體的範式是 " 大模型 + 知識 + 應用。"
雷峰網:多了一個 " 應用," 這個邏輯是怎麼推論出來的?
簡仁賢:我始終堅信,能夠觸及用戶的產品才是最具價值的。比如,在我們今天談論科技時,全球近 80 億的人口中,大部分人對大模型這些高科技概念并不了解,他們碰不到、摸不到、看不到。目前要把大模型用好,需要很好的提示詞,這個 99% 以上的人是不會的,絕大多數的人他們只關心自己所使用的產品的性能能不能給他們帶來價值,所以應用最重要。
我在之前幾次演講中也提到過,模型與用戶之間存在着一道巨大的鴻溝。那麼,如何架設一座橋梁跨越這個鴻溝呢?這座橋就是應用,就是產品。因此,我認為未來的軟體範式是 " 模型 + 知識 + 應用 "。如果只有模型和知識,卻沒有應用,那麼它就無法被人們所接受。
模型是否有價值?我舉個例子,如果你回家跟家裡的老人和孩子說:我有一個大模型,他們可能無法理解你在說什麼。但如果你說:我有一個應用程式,你只需對它說幾句話,它就能幫你寫信。這樣他們就能迅速理解并接受,他們不會關心這個應用程式背後是否有大模型。
因此,企業的目标應該是讓每個人都能使用到技術,而不是向外界誇耀自己的技術有多麼強大。我們的願景是讓每個人都能擁有一個機器人。
雷峰網:機器人的概念怎麼理解?
簡仁賢:機器人的中樞就是大模型,但這個機器人是一個應用,它可以幫助人們完成任務。這就是我們的價值觀——只有模型是沒有用的,正如 OpenAI 一樣,盡管它的很多論文很難懂,但是它創造出了 ChatGPT 這個應用,給大模型一個與人類溝通的一個界面,将大模型到應用的全過程實現了,讓全世界都能在一個界面上利用大模型完成各種任務,因此它才能如此成功。
雷峰網:那竹間應用層的產品接入大模型的能力了嗎?
簡仁賢:我們原有的 4 個產品都已經具備大模型的能力,并且已開發的四種應用也是基于大模型的原生產品,我們的 SaaS 產品也已經接入大模型了,也已經開放給許多客戶試用了。
做好數據梳理,幫企業落地模型才是王道
雷峰網:與通用大模型相比,竹間做大模型的意義是什麼?
簡仁賢:通用人工智能,AGI,并不能真正解決企業的業務問題,絕大多數的公司都不能把自己的私有數據上傳出去。因此,每一家企業都會想要建立自己的大模型,這為我們帶來了萬億級别的商機,即如何幫助企業快速建立大模型。發布會所看到的大模型并不一定具備可商用化的質量,我們重視的是如何将模型打造成可商用化的大模型,務實地幫助企業實現大模型的落地。
雷峰網:具體怎麼幫企業做落地?
簡仁賢:我們提供的服務相當于預先訓練好基礎模型,将該模型部署到我們的大模型工廠 ( LLM Factory ) )上,再将其部署到客戶端,允許客戶使用自己的數據來訓練自己的模型,并自動集成到企業的應用中。
雷峰網:這是我們和其他廠商相比,最具優勢的地方嗎?
簡仁賢:對。像 Open AI 的 GPT-4,由于模型參數龐大,需要的訓練數據與維護工作量龐大,尋要的 GPU 資源更高達 24000 張 A100-80G 的 GPU,是不可能将 GPT-4 這樣的模型部署到客戶端去操作。更實際的,企業并不需要上千參數量的大模型,大部分的需求,用 7B 或 13B 都能完成。我們的通用大模型和模型工廠部署到客戶端,結合客戶的數據和行業 know-how,再進行參數調整,便能微調訓練出一個 7B-65B 的大模型。這個模型留在客戶端,屬于客戶所有,而不是我們。我們更提供了終端的應用,讓企業能快速享受到大模型帶來的業務價值。
雷峰網:其實這也在一定程度上解決了數據安全的問題?
簡仁賢:我們的大模型服務強調的是數據安全和模型安全,事實上,模型安全更為重要,因為企業的許多 know-how 都融入了模型中。如果一個企業創建了一個模型,然後将這個模型交給了他人,可能整個企業的機密就無法保障了。大模型是根據訓練的數據來生成結果的。因此,模型安全至關重要,我們的模型工廠首先能保證數據安全,其次能保證模型安全,确保企業的所有數據都萬無一失。
雷峰網:安全問題保證了,對于竹間來說做大模型最難的是什麼?
簡仁賢:數據梳理。數據梳理和數據标注是兩個概念。
其實對于我們來說,創建大模型不難的,因為我們有 know-how,真正的難點在于客戶需要整理數據。舉例來說,如果要整理過去 10 年雷峰網的所有文章,篩選出所有與人工智能相關的文章,你們公司有誰可以完成這項任務?需要多長時間?這是一項復雜的任務,需要大量的人力。
雷峰網:所以說,這也是對客戶的挑戰?
簡仁賢:對。在國内,高質量,梳理過的數據短缺是一大問題,特别是有效的中文數據更是稀缺,缺少能使用到模型訓練微調的高質量的數據。創建企業定制化的大模型主要取決于企業自身是否有數據積累。如果沒有,就很難進行,需要從數據收集和準備訓練數據做起。只能使用通用大模型來解決通用問題,例如撰寫文章、修改文章等簡單任務。當然,很多國内外的大企業或上市公司都擁有自己的數據,但缺乏的是數據梳理方法——如何沉澱優質數據,然後去訓練模型?這是最大的挑戰。
雷峰網:怎麼幫客戶解決這個問題?
簡仁賢:在數據梳理的過程中,不存在所謂的 " 彎道超車 ",必須積累行業經驗和 know-how。作為 B 端的服務提供者,我們在金融、能源、制造、消費、傳媒等領網域已經積累了豐富的經驗。我們具有能為企業整理數據的 know-how 和工具,如果只提供大模型而不協助整理數據,不能微調大模型,那麼客戶将無法有效使用大模型。
不做 C 端,瞄準 B 端,堅持做企業級大模型產品
雷峰網:和前幾個月相比,您對大模型的發展有改觀嗎?
簡仁賢:近期大模型的發展和我幾個月前的預測存在一些出入。谷歌并未開源其模型,目前仍保持閉源狀态。Meta 目前是開源領網域中最大的企業,也是大模型的主要貢獻者。與谷歌和微軟保持閉源策略不同,Meta 的 LLaMA 是開源的 ( 參數權重除外 ) ,其在整個開源世界的影響力遠超谷歌和。
目前,大模型呈現兩大發展趨勢:一是保持閉源并走向超大型模型;另一是堅持開源并走向中大型模型。有些創業公司或大廠在做的大模型都同質性太高,沒有差異化,其結果大同小異。但我認為,未來有價值的工作會是在訓練微調的技術上精進,并将微調工作規模化,為企業大模型落地走完最後一公裡路,而不是處在于做同質性的大模型。
雷峰網:閉源大模型和開源大模型争奪市場有什麼不同?
簡仁賢:閉源大模型争奪的是 C 端市場,而開源大模型争奪的是 B 端市場。
雷峰網:為什麼谷歌、微軟不開源?
簡仁賢:簡單來說,他們需要通過這些模型來提高他們主營業務的獲利,以提高他們的競争力,對業務有價值的核心技術,誰會開源?
雷峰網:聽下來發現,竹間更傾向于做 B 端,那會不會像谷歌微軟一樣做超級巨大模型?
簡仁賢:我們的目标并非是直接為三、四億用戶服務的超大模型,這是大企業的工作。我們的目标是為數萬家有大模型需求的企業提供大模型支持與解決方案落地。另一個現實是:目前沒有任何非 AI 企業有足夠的計算資源和預算來開發通用大模型。1 萬個 GPU 的費用超過 2 億美元,我們的客戶,絕大多數現階段都無法投入這麼大的資金去開發超大模型,尤其是當這麼大的模型并不是直接解決業務問題的。
我們在與客戶交流的過程中發現,他們的需求不是高考,獲取律師資格、取得 MBA,他們需要的是解決自己的業務問題,而中大型模型就足以滿足這一需求。
雷峰網:您認為大模型廠商應該把重點放在哪些方面?
簡仁賢:我們應該思考的是如何使企業在有限的預算下能夠負擔起新的 AI 技術,幫助他們實現内部增強。這才是大模型發展的重點,科技的進展日新月異,如何把握住最新技術,了解客戶的需求,将合适的技術與產品落地到企業業務中才是我們最關注的重點。企業無法直接引入像 ChatGPT 這樣的模型。實際上,由于不可控的因素,數據安全的隐憂,許多國家和企業已經開始限制使用 ChatGPT。在這種情況下,企業如果想要享受大模型的能力,對我們來說就意味着巨大的商業機會。
在有限的預算内,幫助企業将大模型融入業務系統,才是真正值得我們關心的大模型發展趨勢。