今天小編分享的科技經驗:ChatGPT和宋丹丹,誰陪你聊天更貴?給人工智能當保姆,都要操哪些心?,歡迎閲讀。
給人工智能"大模型"當保姆
都要操哪些心?
文 |史中
(一)ChatGPT和宋丹丹,誰陪你聊天更貴?
"有人花錢吃喝,有人花錢點歌,有人花錢美容,有人花錢按摩,今兒我雇個好活,有人花錢,雇我陪人兒唠嗑兒。"
2000年,作為一個小屁孩在電視前看春晚時,我決計想不到,有生之年世界上真能出現一個陪人唠嗑的機器人,還能唠得和小品《鍾點工》裏宋丹丹演的"大妹子"一樣好。。。
二十三年以後,我等到了 ChatGPT。
先問你個問題:ChatGPT 和宋丹丹,你覺得誰陪你聊天會更貴一些?
看上去有點兒無厘頭,其實這是個嚴肅的問題。你先在心裏盲猜一個答案,然後我給你求解:
先來看鍾點工的價格。
小品裏宋丹丹説了,唠一小時40塊。
再來看 ChatGPT。
它唠嗑的價格,一般人不知道,但中哥我知道。
這是浚源告訴我的。
給你介紹一下,浚源有三個身份:
一、人工智能老師傅;二、字節跳動火山引擎旗下"方舟平台"的研發負責人;三、不僅關心AI馬兒跑,更關心馬兒吃多少草的"現實主義者"。
話説,2022年底,ChatGPT 剛橫空出世那陣兒,作為人工智能界的"老炮兒",浚源簡單跟它對話了幾句,就得出了兩個了不得的結論:
一、這種大模型加持的AI,掌握了理解上下文的能力,可以像人一樣你一言我一語地"連續對話"。
就憑這一樣,已經華麗麗地實現了幾代人工智能科學家半個多世紀的夢想。
二、能做到這一點,是因為他們掌握了 AI 大模型的"湧現機制"。
從專業角度看,這個進步不是"騙炮",它很可能讓人工智能擺脱如中世紀般漫長的"人工智障階段",得以在各行各業迅速普及!
一想到"普及"兩個字,他不困了,按捺不住想要算算這大模型運轉的成本是多少。
話説,ChatGPT 的"工資"也是明碼标價的——它是按照 Token 來計算的。
啥是 Token?咱們人類理解語言的基本部門是字詞,但是大模型理解語言的方法稍有不同,它的基本部門就是 Token。
一個 Token 有時候對應半個詞,有時候對應多個詞,大部分時候對應一個詞。
為了方便,咱們就簡單理解為一個 Token 對應一個詞吧。
這張圖直觀展示了啥是"Token"。
ChatGPT 跟你聊天,分為兩步:
1)先理解你説的話;
2)再生成它説的話。
這"一聽"+"一説",裏頭總共有多少Token,它就收你多少錢。
現在 ChatGPT 有兩個版本,普通版的 ChatGPT 3.5,還有史詩級的 ChatGPT 4.0。調用 ChatGPT 3.5 的價格是"每1000個 Token 0.002美金";調用 ChatGPT 4.0 的成本大概是"每1000個 Token 0.06美金"。
咱們就按一問一答500個Token算:ChatGPT 3.5 回答一個問題大概是不到1分錢人民币,ChatGPT 4.0 回答一個問題大概是不到5毛錢人民币。
也就是説,如果你打字飛快,把 ChatGPT 4.0 壁咚到牆角一頓唠,一小時能問出去幾十個問題,極限狀态也能耗費掉30-40塊錢。
説到這兒,我們的問題大概就有答案了:
目前人類最先進的 AI 大模型——ChatGPT 4.0——竟然和宋丹丹老師陪聊的價格差不多。。。
它聊一小時也相當于黃宏老師的1小錘,0.5大錘。。。
相當于趙麗蓉老師的0.22杯宮廷玉液酒。。。
好,不開玩笑了。其實剛才這些計算都是非常粗略的,不足作為商業參考,我講這些只是為了讓你能直觀地感受到:
人工智能不是省油的燈——"大模型"幹起活來,其實成本并不低。
而我們今天要講的所有故事,皆與此相關。
話説,大模型幹活的成本高低,本來和浚源也沒太大關系。因為他當時還在忙另一個項目,測試大模型只是滿足一下自己該死的求知欲。
可是,2023年3月底的一天,他的命運軌迹突然如秋名山的賽道,來了一個急轉彎。
當時火山引擎智能算法負責人吳迪找到他,開門見山:眼看大模型的浪頭已經開始翻湧,火山引擎準備跳進這個歷史大潮裏,你要不要來?
"來!"浚源回答很幹脆。
(二)一幫人工智能老師傅,發現了啥驚天大幂幂?
老規矩,在講"老師傅搞事情"之前,為了讓淺友們都能上車,咱們還是先把時間暫停,強勢科普一點兒基本姿勢。
問:到底啥是大模型?
答:就像飛機是用鋼鐵模仿鳥兒翅膀一樣,大模型是用計算機模仿人類的大腦。
咱們的大腦之所以能做決策,是因為它把學過的知識、見過的人、想過的事情都做成了"縮略圖"存在了腦細胞裏——遇到啥問題,去"縮略圖"上查一下,就能得出答案。
你老板之所以給你發工資,不就是因為你有這個技能點麼?
大模型也是一樣——你只要把全世界的知識都拿來,然後像虎媽一樣督促它"好好學習",也能在它"大腦"裏生成縮略圖。
和你一樣,大模型也能用這個能力打工賺錢!
問:那一個大模型從"啥也不是"到能"打工賺錢",中間攏共分幾步?
答:分五步。
1、找一座"貴族學校"。
眾所周知,訓練"AI 模型"需要用 GPU 卡。訓練 AI 大模型,更是得用成千上萬個 GPU 卡。
GPU 卡堪比黃金,每張都得一萬美元起步,堆在一起妥妥就是蓋了一座貴族學校嘛!這也沒辦法,大模型的本質就是氪金魔法,沒有金剛鑽,别練大模型。
2、找來一堆"課本"。
所謂課本,就是數據,成噸的數據。(訓練一個靠譜的大模型,怎麼也得幾千億 Token 吧。。。)
課本裏的知識越多、越純、越高級,最終學出來的大模型就越厲害。
3、找一群"老師"來上課。
所謂老師,就是"機器學習平台"。把一個小孩紙丢進學校裏,他是沒辦法自學成才的,得有老師來講課。
同樣,AI 也需要"靈魂的工程師"。
機器學習平台負責"安排課表",然後對照"課本"上的知識一堂一堂地給大模型"上課"。所有知識都學完,大模型就畢業了。
4、找一群"師傅"來帶徒弟。
你懂的,很多畢業生雖然滿腦袋都是知識,但啥也幹不好,因為沒有專業領網域的實踐經驗嘛!
大模型也一樣,得根據它将要承擔的具體工作,找個"師傅"來繼續做"職業培訓"。這個過程就叫對模型的"精調"。至此,大模型的"訓練"階段終于結束,可以出徒了。
5、大模型開始"搬磚"。
大模型搬磚的姿勢,學名叫做"推理"。比如,我給大模型提一個請求,它在"大腦"裏過一下,輸出一個結果,就完成了一次推理。
當然,每次推理都會耗費一些計算力。
注意,有趣的事情來了:
推理的計算力成本和"模型大小"有關系。
説到一個模型的大小,其實就在説它包含多少個參數。就拿 ChatGPT 3.5 來説,它的模型大概有幾千億個參數(具體數量沒有公布),而 ChatGPT 4.0 大概有上萬億個參數(具體數量也沒公布)。
你可以把參數類比為人的"腦細胞"。
思考同樣的問題,腦細胞多的"大腦袋"比腦細胞少"小腦袋"更耗費能源。當然,"大腦袋"能解決的問題也更復雜。很公平,對吧?
诶,就在這裏,老師傅們發現了一個驚天大幂幂。
啥秘密呢?
AI大模型的復雜度并不是随着任務復雜度"同步增加"。任務復雜,模型必須指數級增大。這也意味着推理成本會随之提升。
人腦則不同:随着思考問題難度的增加,推理成本幾乎不會上升。(當然人腦存在一個思考極限。)
大幂幂來了:假如要處理的問題難到一定程度,"AI 大模型解題的成本"就會超過"人腦解題的成本"。
那 AI 大模型大到啥程度,就會比(同等聰明的)人更貴了呢?
拿2023年的科技水平來説,至少在 ChatGPT 4.0 能處理的任務復雜度這個級别,人和 AI 的成本已經大致相當了。(這下你明白為啥我在文章開頭要算那個賬了吧?)
當然,浚源強調這樣簡單比較并不準确。但一個總體趨勢是:特别難的任務推理成本還太高,目前不太實用。
了解了這些,我們再回到吳迪和浚源他們身邊,你就能跟上這群"AI 老炮兒"當時的思考邏輯了:
像 GPT 4.0 那樣超大的模型,更靠近通才——靠一個模型就能勝任多種工作。雖然研發一勞永逸,适配各行各業相對簡單,但是它的推理成本會很高,甚至超過真人!
明顯用人來幹更便宜的情況下,誰會用 AI 去幹呢?
像 GPT 3.5 那樣或者更小一點的大模型,更靠近專才——必須針對各個工作單獨調整模型,才能完美勝任。(或者説它也是通才,但比真正的通才更專一些。)
雖然适配工作很麻煩,但是,它的推理成本低啊!大家用得起,才有商業化的動力。
話説,就在我們故事開始的2023年3月,眼看中國大大小小的企業都已經開始研發大模型,堪稱"百模大戰"。
當時很多看客覺得,中國大模型要想追上 ChatGPT 3.5 的水平,起碼得2-3年。但浚源掐指一算,不用那麼久——預計到2023年底,大家就能追上 ChatGPT 3.5 的水平。
這也意味着,"小而專"的大模型在中國的商用已經箭在弦上。
有了這些共識,老師傅們再盤腿坐在一起,商量火山引擎要搞點兒啥事情。
他們得出結論:既然這麼多小而專的大模型想進入各行各業,必然需要根據具體的工作種類進行定向精調、各種适配。
那作為雲計算服務商,能不能把各家大模型都放在一起,火山引擎提供統一的平台和工具,幫這些大模型在各行各業落地呢?
這不就是那個經典邏輯麼?在美國西部淘金熱的時候,賺大錢的不是那些親自淘金的,而是在一旁賣鏟子的。。。
但我轉念一想:不對啊!幫大模型在各行各業落地,這是你説幫就幫的麼?這些大模型願意麼?各行各業的客户願意麼?
其實,2023年春天吳迪忽悠浚源"入夥"時,浚源就提出了這個疑問:"咱們家裏到底有啥礦,讓人家非得和我們火山引擎合作不可嘞??"
吳迪呵呵一笑:你有所不知,就在此時此刻,智譜、MiniMax、出門問問、瀾舟科技、百川智能這些明星公司的大模型已經跑在咱們火山引擎上了!
(三)火山引擎的"朋友圈"來之不易
實話實説,第一次聽到吳迪説"中國很多明星大模型都跑在火山引擎上",我也覺得他在吹牛。
怎麼可能有這麼多嘛?!
但是仔細了解了"火山簡史"之後我發現,如果我是大模型創業公司,可能也會把大模型放在火山引擎上來訓練。
聽我來講講這段故事。
火山引擎跟人工智能的關系,怎麼説呢。。。就主打一個"家傳"。
就拿抖音舉例,它有一個熊熊燃燒的人工智能推薦引擎,可以對平台上發生的一切細節進行實時計算,然後針對每個正在刷抖音的用户,找到此時此刻你最有可能喜歡的短視頻,随着你手指輕輕一劃,這條短視頻就傳輸到了你的螢幕上。
想想看,能給幾億人"量體裁衣"推薦視頻的人工智能,訓練起來得有多艱難、運轉起來得有多壯觀。
有關這個推薦引擎,篇幅有限今天就不展開了,淺友們可以參考。
我要説的是,它就運轉在火山引擎上。
你注意過抖音登錄螢幕這行小字麼?
其實,火山引擎這些年一直在給自家業務提供服務,2020年才正式挂牌對外提供基礎計算力,算是雲計算的後後後來者了,在市場份額上自然照阿裏雲、騰訊雲有不少距離。
但這裏要注意,我所説的距離是指以"CPU"為基礎算力的傳統雲;在以"GPU"為基礎算力的人工智能雲上,火山引擎可是并不遜色。
剛才咱們説,訓練大模型很像"送 AI 去上學",不僅是指學的過程像,連"卷"的樣子也像。
咱們人類教育已經卷到了極致,卷完學區房卷學校,卷完學校卷老師,卷完老師卷輔導。
送 AI 上學也一樣,家家不都得找"師資力量"最強的學校麼?!
火山引擎"師資力量"咋樣呢?我説兩個事兒你感受一下:
第一,火山引擎上有"名校"。
剛才説過,GPU 是大模型的學校。
無論是前幾年互聯網的蓬勃時代,還是疫情的低迷時期,火山引擎對于 GPU 卡可是從不吝啬,一直在買買買。
然鵝,這客觀上導致火山引擎成為了中國 GPU 的大户。
雖然官方沒有披露數據,但是火山引擎手裏掌握的 AI 計算力,絕對是全中國數一數二的,數三都不太可能。。。
現在全世界都掀起大模型浪潮,所有人都在争搶 AI 計算力,在這種"飢荒"狀态下,看到火山引擎手裏充沛的 AI 計算力,那不就是餓了三天看到肉包子的效果麼?
第二,火山引擎上有"名師"。
剛才也説過,"機器學習平台"就是大模型的老師。
可這老師具體是咋工作的嘞?我簡單給你擺一擺。
1)你可以把大模型看成是一個有千億個腦細胞的大腦,老師教授知識的過程,從細節上看就是在"調整每一個腦細胞的參數"。
2)每一本"書"進入大腦,都會刷新一遍所有腦細胞的參數。老師孜孜不倦地一本一本往腦袋裏裝書,腦細胞參數就一遍一遍被"刷新"。
3)但這裏的問題是,由于操作太精密,每一波腦細胞參數完全刷新之後才能存檔(CheckPoint),進行過程中是不能"存檔"的。
一旦中斷,至少得"一本書"從頭再來。
4)訓練一個大模型,需要幾千張 GPU 卡連續工作幾個禮拜,你中間卡碟,心若在夢就在,只不過是重頭再來,那前面白算的一段成本誰給報銷?!
5)所以,訓練必須一!遍!過!
仔細想想:這種大模型訓練過程,跟雜技"頂碗"是一樣一樣的,所有的碗必須全部到位,一個碗碎了,整個雜技就都廢了。
這還不夠,GPU 是人類最精密最兇殘的造物——每張 GPU 卡700w,一個機箱裏插8張——光是發熱已經秒殺了一般的電暖氣。。。
你想想看,這大夏天的,人腦子都容易熱傻了,何況電腦。一堆"電暖氣"在一起絞盡腦汁兒算數,一個不小心就會導致故障。
還沒完,在保證不出故障的情況下,你還得盡量提高 GPU 的使用效率,确保整個"教學任務"用最短的時間完成。
所以,火山引擎這群"老師"(機器學習平台),必須同時做到三點:
1、制定最有效率的教學大綱(保證訓練總時長最短);
2、嚴謹地教書育人(保證訓練過程不出錯);
3、維持課堂秩序(保證底層硬體之間的協作順暢)。
這難度就不是頂碗了,這是頂碗的時候踩着平衡木,手裏還得扔着五個球。。。
怎麼樣,這活兒不是誰都能幹的吧?
話説這些技能,火山引擎的老師傅也不是一開始就會的。但是。。。這幾年為了支撐抖音用户從1億到2億,從3億到6億,老師傅不會也得會。
比如他們搞出了"0碎片"技術,保證每一絲 GPU 都被用到極限;比如他們研發了一套AI專用的通信框架,讓原來25天才能訓完的模型用15天就能搞定。
大模型,那可是各家公司的寶貝疙瘩,很多創業公司幾十号人就開發這麼一個模型,自然要找最好的"學校"來培養。
看了一圈,火山引擎又有名校又有名師,妥妥的重點學校,來這兒也是順理成章了。
就這樣,從2022年開始,火山引擎和這些大模型公司陸續交上了朋友。
老師傅很清楚,這豪華"朋友圈"可不是誤打誤撞得來的,而是人家從心底相信火山引擎過去十年苦練的真功夫才會慕名而至——每一個朋友都來之不易,絕不能辜負,得幫人幫到底,送佛送到西啊!
怎麼才算幫人幫到底呢?
吳迪掏出老司機的經驗,開始盤算:
從2023年初到2023年底,這個階段大家應該都在"卷"大模型本身,AI 計算力主要會用于"模型訓練";
但從這個時間節點往後,大家的模型都訓練得差不多了,目标是進入各行各業,那就得有"師傅"來進行各種"職業培訓",也就是"模型精調"。
顯然從那時起,"精調"所占用的 AI 計算力肯定會慢慢攀升——2-3年後,"精調消耗的算力"就可能超越"訓練消耗的算力"。
就像下圖所示:
如此説來,火山引擎要想讓手裏的 AI 算力和 AI 底層技術在歷史長河裏奔騰不息,就得不斷根據水流調整開船的姿勢:
1)先把大模型請上船,幫它們用最低成本和最高效率做訓練;
2)再把千行百業務的客户也請上船,幫他們做精調和适配,讓大模型這種新技術順暢地融入他們的血液!
這,就是"火山方舟"大模型服務平台的由來。
怎麼樣,目标很清晰吧?吳迪拍拍浚源的肩頭,去幹吧!
不過突然被推入大海,從零開始造船,浚源還有點兒蒙——既然要做"平台",火山方舟就得一手托兩家,左手是大模型公司,右手是用大模型的各行各業——得同時滿足兩方的需求才行。
那。。。怎麼才能讓兩方都滿意嘞?
浚源首先想到的就是:得給大模型配個"腦殼"!
(四)大模型最怕"裸奔"
細心的朋友想必已經觀察到了,人的大腦一般是不裸露在外面的。。。
這當然是因為大腦很柔軟,也很精密,需要被格外地保護起來。
大模型也是如此。
簡單來説,大模型有"兩怕"。
第一怕:大模型開發者怕使用者探測到它的模型結構。這樣一來,花費上千萬美元成本訓練的模型,就可能被人白嫖了呀。。。
第二怕:大模型使用者怕模型開發者看到它的數據。如果"用于精調的數據"和用户使用模型時的"請求數據"被拿走,那相當于企業機密就走光了呀。。。
這麻杆打狼兩頭害怕,還怎麼合作呀?!
诶,有辦法——像人腦那樣,給大模型加個"腦殼"呗!
浚源告訴我,這個"腦殼"的學名叫做"安全沙箱"。
簡單來説,它的原理是醬的:
1)安全沙箱綁在火山引擎上,既不屬于大模型生產方,也不屬于大模型使用方,與世隔絕。(沙子都漏不出去嘛!)
2)大模型生產方把模型 Copy 一份放在沙箱裏,大模型的使用方把一條條"請求"加密之後送進沙箱,再把用于解密的鑰匙放在沙箱裏。
這樣,全世界就只有這個沙箱裏的大模型可以看到請求的明文。
3)同樣,一條條回答從沙箱裏送出來時,也是加密的,只有大模型用户有解密鑰匙,這樣,就做到模型使用全程只有"天知地知你知我知"。
4)如果需要對模型進行"精調",也是同樣的操作。大模型的使用方把自己用于精調的數據加密之後送進沙箱。
精調後的模型參數就留在沙箱裏,大模型的開發者也拿不出來。
總之,沙箱就像一個完美的特工:該説的説;不該説的打死也不説。
對于字節這群頂級老師傅來説,做出這個安全沙箱簡直是灑灑水,真正難的,是如何"一次成型"地把它快速做好。
确切地説,留給浚源的時間只有兩個月。
為啥要的這麼急呢?
很簡單的道理:火山引擎上的各個大模型正在緊鑼密鼓,都快訓練得八九不離十了!
腦子都快好了,腦殼還沒好,這哪行?!
可是,一個大模型的運轉過程中,數據會像水流一樣在雲上的計算、存儲、網絡這三個基礎設施裏來回"流竄"。
要想造出一個滴水不漏的沙箱,就必須像大壩截流一樣,把這三個峽口都堵嚴實,但凡有一樣隔離不徹底,都有可能造成數據泄露。
更難的是,這三樣基礎設施是由火山引擎底層技術部門維護的,不是浚源團隊自己説幹就幹的,得靠兄弟團隊配合。。。
幸好浚源平時靠譜。這張臉,此時不刷,更待何時?!
這不,整個四月份,他派出了好幾支"方舟遠征軍",駐扎在各個產品團隊裏,上午説需求、中午聊架構,下午跟他們一起撸代碼,晚上一起撸串。。。
老師傅們就這樣一起撸了兩個月代碼,感情越撸越好,配合越來越默契,終于做出了一個緊致無比沙箱。
然後,他們馬不停蹄把幾大合作夥伴的頂尖大模型都塞進沙箱裏。
至此,賽博世界華燈璀璨,老師傅們在街邊列隊整齊,伸出温熱的小手,向千行百業的客户招呼——來呀,感受中國大模型的洶湧澎湃呀!
這個畫面太美,不妨讓它暫停一會兒。我先問你個問題:説了半天"千行百業",你知道大模型到底能用在什麼行業麼?
我就不逞能了,直接讓吳迪回答吧。
他把目前大模型的應用場景抽成三類:
第一類是"生成"。比如大模型看了一堆A產品的資料後,就能變身"AI 客服",顧客買了A產品,不用看説明書,遇到不會用的地方盡管提問,它都能對答如流。
第二類是"控制"。比如把大模型塞進汽車,它就能變成"AI 管家"。你説一句"我想在車裏打個盹兒",它就能幫你把座椅放倒,把空調打到不吹人的舒适温度,車内燈光調暗,沒準還給你來個搖籃曲。
第三類是"輔助創作"。比如讓大模型看一堆遊戲設定和美術稿,他就能變身"AI 設計師",遊戲開發者可以讓它自動生成符合遊戲畫風的道具、場景、NPC,還能創作符合 NPC 人設的對白。人類設計師只要在它的基礎上修改就行,大大節省了創作成本。
你發現沒,這些工作的共性就是:需要一些創造力,但不多。
或者你可以簡單理解:目前大模型能勝任的工作難度,大致相當于大專院校畢業3年以内人類社畜的水平吧。
之前説過,由于推理成本的限制,做這些工作只能使用比較小的大模型。
比較小的大模型,只有适配後才能更好地完成任務。模型越小,這個适配工作就越多。
如此説來,既然火山引擎鐵了心要幫助大模型在千行百業落地,那就必須有一個貼身團隊來服務客户——就像"保姆"一樣,幫他們配對合适的大模型,并且幫助他們降低使用成本。
那,這個"保姆"要誰來幹呢?
吳迪想來想去,在火山引擎内部,還真有一個"服務型人才",那就是老科。
你還記得字節跳動有一張技術王牌麼?
沒錯,就是那個熊熊燃燒的可以同時幫幾億人推薦内容的"推薦引擎"。
好東西自然不能獨享。早在火山引擎還沒正式成立的2017年,"推薦引擎"就對外服務了——大大小小的企業都能用到"抖音同款"推薦引擎。而負責把這個推薦引擎接入千家萬户的服務團隊,正是老科的團隊。
讓他們來帶領大模型面向企業的服務(AI to B)團隊,有兩個肉眼可見的好處:
第一、火山的推薦引擎已經接入了千行百業,很多公司都已經成為了好朋友,老科團隊可以從裏面挑選最好最好的朋友"送福利",讓他們優先試用"火山方舟"。
第二、畢竟大模型是人類科技的風口浪尖,客户試用之後難免會遇到些小問題。鑑于老科團隊跟客户們都有交情,客户們要是有啥不滿意,想打人的時候。。。下手不會太重。。。
2023年5月,火山引擎的幾位老師傅去桂林團建,在大自然鬼斧神工的美景裏,吳迪看着遠方,問老科:"要不要來?"
老科説:"來!"
(五)大模型的"保姆"和"紅娘"
話説,要想保姆出場,得先讓紅娘出場。
因為在我看來,老師傅面臨的困難,首先是"唐伯虎點秋香問題"。
舉個例子吧:
我是A公司的老板,我們公司生產一種"奪命3000"的格鬥神器,想用大模型做一個"AI 客服"。
此時我的角色就是唐伯虎。
我面前有一群"AI大模型",我知道,裏面一定有一個模型最适合做"AI 客服"——成本最低,效果也最好。它就是我的"秋香"。
唯一的問題是:這群大模型都蓋着蓋頭,我不知道誰是"秋香"。。。
大模型是封閉在沙箱裏的,開發者不可能打開腦殼給我看;就算開發者願意給我看,面對一堆代碼,我哪知道它到底适不适合我?
這裏就要輪到"大模型紅娘"出場了!
老師傅鍵盤敲得飛起,開發了一套"大模型評測工具",專門在"不掀開蓋頭(頭蓋)"的情況下,通過對話來評測這個大模型是不是你的"秋香"。
簡單來説,這個評測工具有兩個功能。
第一個功能:"自動化評測"。
還拿A公司舉例吧。我不是想做"AI 客服"麼,那我可以自己寫一些符合我要求的"問題和答案",打包成一個數據集,放在這個評測工具裏。
它會自動把火山引擎上所有的模型都跑一遍,然後給出分值。
分值越高,就説明這個模型給出的答案最接近我的數據集,那它就八九不離十是我的秋香了!
第二個功能:"人工評測"。
我覺得我家的"AI 客服"不僅要能回答問題,説話還要有文采。
但"文采"這個事兒非常主觀,蘿卜青菜各有所愛,自動評測就不太好用了。
這時我就需要"自主命題",比如讓所有的大模型都圍繞"蘿卜"給我寫首詩,我最喜歡誰的風格就選誰!
注意,我一直在説"我的秋香",而不是"秋香"。
意思就是,這些頂尖大模型之間的"優劣"差異本沒那麼大,反而是看誰更适合你的任務需求。
換句話説,你的"秋香"不一定是别人的秋香,有可能是别人的"如花"。
這就引出了一個新問題:
假如我的A公司想用 AI 大模型完成不同的任務,不僅要做客服系統,還要做内部培訓系統,還要做宣傳文案輔助設計系統——對于不同任務,最适合的大模型很可能是不同的。
這相當于我不僅有唐伯虎,還有祝枝山、文徵明、徐祯卿。。。他們日後分别要和秋香、冬香、春香、夏香配對協作。
但每個大模型開發者都不同,可想而知操作它們的姿勢也不盡相同,這就很麻煩。
不用説,又到了"大模型紅娘"出場的時候了。
當時意識到各個模型操作不統一的問題,老師傅火速開發了一個"統一工作流平台"。
簡單來説就是,在每一個大模型的基礎上,都安裝一套"火山牌"轉接插頭。
這樣一來,七國八制的大模型就被歸攏為同一套操作流程,我只要學會跟"秋香"合作,那冬香、春香、夏香就都用同樣的姿勢就OK了!
掃清了這些障礙,我的A公司終于能"迎娶"秋香過門了!
這時,終于到了大夥兒一直期待的重要步驟——對秋香進行調教,也就是所謂的"模型精調"。
從這開始,也是老科的"保姆"團隊重點要做的事情了。
話説之前咱們一直沒來得及解釋,到底啥是精調。
沿用我們的比喻,就是唐伯虎迎娶秋香之前,要把唐家府上的各種規矩拿出來,給她進行一套"職業培訓"。讓她在學習了社會的一般規範(在模型訓練階段就完成了)的基礎上,繼續學習唐府的個性規範(需要精調來做)。
具體的做法和訓練模型時類似,也要拿來一些教科書(如果讓它做"AI 客服",這裏就需要"產品説明書"的數據),然後請老師(機器學習平台)來上課,把大腦裏的所有模型再刷幾遍。
精調之後,秋香就不再是純粹的秋香,而是"唐家夫人"了。
到這兒,保姆可以撤了吧?!不行,還有重要任務沒完成。
那就是——玩兒命降低模型推理成本。
别忘了,在大模型訓練的時候,"秋香"可是看了全世界的知識,這些知識她都學雜了,既會三國殺,又會C++。從摩托車維修技術到母豬產後護理,沒它不懂的。
但講真,做為一個"AI 客服"。。。并不需要懂母豬的產後護理。
所以,這裏就要對模型進行剪枝,也就是忘掉一些一輩子都用不到的知識。
忘記之後大腦就"瘦身"了,每次思考時"過電"的腦細胞少了,耗費的能源自然就少了,推理成本也就大幅下降了!
剪枝做完了,保姆的任務完成了嗎?還沒有。
老師傅還可以通過算子優化,繼續降低推理成本。
簡單來説就是:既然知道這個"AI 客服"日後會經常思考哪些内容,不如現在就把這部分"腦回路"加固一下,做成一些思考的"快捷方式"。讓它每次推理這些固定問題時能夠更快速、更省流。
畢竟模型日後要進行億萬次推理,每次哪怕省出幾個電子,那累積起來都是巨大的成本節省。
看到沒,老科帶着老師傅"逮住蛤蟆攥出團粉"——把能想的辦法都想絕了。。。
有的模型經過他們一番調整,推理成本甚至能下降到最初的十分之一!
話説,大模型在整個人類歷史中也才出現了半年,雖然老科是人工智能老司機,但很多地方也得摸着石頭過河。
為了盡快積累經驗,他們經常是組團去給客户精調模型——客户那邊出一個工程師,老科這邊能派出去好幾個,這陣仗可給客户吓得不輕。。。
"這麼幹,成本能受得了麼?"我表示震精。
"我們當然不會一直這樣做。每次回來,我們都會把适配的經驗盡快沉澱成工具,以後再做同樣的事情,就會用工具輔助人來做。慢慢地工具的比重越來越大,人的比重越來越小,最終的目的就是讓客户自己用工具輕松完成精調和适配!"
他笑。
聊到這兒時,我突然想到了字節跳動創始人張一鳴的一句話:"大部分事情你做第二遍的時候,要麼做得更快,要麼做得更好。"
這恐怕是"人類"和"人工智能"所共享的進步哲學,也是根植在字節跳動這群老師傅心裏的技術信仰。
總之,整個2023年的6月,火山方舟上老師傅和用户面前仿佛擺了一桌"螃蟹",兩邊一起吃,邊聊邊吃,把酒臨詩,一場人類技術的艱難求索,就此變成了江心縱舟,登極遠目。
2023年6月28日,老師傅向左跟幾個大模型供應商挑了挑眉毛,向右跟幾十家内測客户确認了眼神,決定正式對外發布"火山方舟"平台。
從春天艱難的從零起步,到夏天方舟氣象初成,只經歷了三個月時間。
(六)"人類之子"
在我和火山這群老師傅聊天的時候,方舟平台剛剛發布。
無數具體的大模型應用都在緊鑼密鼓的精調訓練中,老科得幫客户保守秘密,不能給我講得太詳細。
他告訴我,不用着急,醜媳婦肯定會見公婆——從現在開始到年底之前,大家會看到各行各業的大模型應用"井噴"。
大模型對我們的生活到底有啥改變,每個人都都能用今後的每一天慢慢體會。
但是,對于火山方舟的老師傅來説,他們沒工夫坐在山頭抽着旱煙欣賞自己的"造物",打怪更新的道路才剛剛開始。
大模型就像一個"人類之子",他可以不只有"腦子",還可以有"手腳"。
啥是手腳呢?
比如,大模型可以寫代碼,但是寫好的代碼只能展示給人類,人類再粘貼到運行環境裏運行。如果給大模型插上一個運行環境,它不就可以直接寫好代碼運行了嗎?如果遇到代碼錯誤,它就可以根據運行結果繼續調試,直至開發成功。
再比如,大模型可以給你生成菜譜,但需要你照着菜譜自己炒菜啊!如果把一個機械臂連在大模型上,它就可以按照菜譜給你直接把菜做出來了!
這些連在大模型上的系統,統稱"插件"。有了插件,大模型就相當于有了手腳。
怎麼樣,你有什麼感覺?
沒錯,這不就是科幻電影裏的"機器人"麼?
你看,一旦有了插件,大模型就從一個"缸中之腦"變成了開放世界的真實玩家。
腳下的地圖拓展成無窮,伴随的可能性也變成了無窮。在人間遊走,它對倫理、文化、技術邊界、哲學的衝擊,可能将會次第展開。
可以這樣説:
站在天空俯瞰,人類對大模型的應用歷史就像一座迷宮。
但此時此刻,我們不僅不知道出口,而且,連迷宮的形狀和特點還沒完全探索清楚。
但除了接受挑戰,我們别無選擇。
不過對于火山方舟的老師傅來説,仍舊有三件事兒是絕對正确的,那就是:降低成本、降低成本、還是降低成本!!
浚源告訴我,除了老師傅十年來磨煉的人工智能"訓練加速"和"推理優化"技術之外,還有一些更大的變量在影響大模型的成本。
比如,有沒有可能繼續把大模型做得更"精專"?
現在各行各業正在使用的大模型一般都有1000多億個參數。但是,如果大幅降低大模型的參數,例如降到60-70億個,會怎麼樣呢?
這種大模型,在普通人眼裏顯然不夠"聰明",但它用來完成極其特定的任務,卻是非常省錢的!
就拿微軟來説,他們就做了一個極小的 GPT,塞進 Excel 裏,做成了 ExcelGPT。
這個 ExcelGPT 只會做一件事兒——按照常識幫你把表格補齊。
你看,這個大模型既不用懂摩托車修理,也不用懂母豬的產後護理,它只需要理解簡單的常識。用一個極小的大模型就能完成任務!
看到這你也許有點懵,那到底多大的模型最合适呢?
這個問題,火山引擎的負責人譚待在方舟發布會上,用一個有趣的比喻做了回答:
就拿我們公司來説,我們有一些博士,攻堅最難的任務;但我們公司不都是博士,也有很多研究生、有更多大學生,他們每個人都負責相應的任務,讓成本和產出達成最優的平衡。
相信大模型也是這樣,未來一個公司可能同時使用很多大模型,有超大的模型負責最需要創造力的任務,也有小模型和專業模型負責更普遍的任務。
這些模型結合起來,各安其位,才是大模型的完整生态。
除了模型大小以外,底層的 GPU 的算力當然也會影響大模型的成本。
那。。。GPU 未來的算力會怎樣發展呢?
浚源非常樂觀:"在 AI 算力上,摩爾定律并沒有失效,這些年都是非常平穩地"兩年翻一倍"。"
英偉達創始人黃仁勳曾經預言,GPU 計算力仍将以超越摩爾定律的速度增長。
"那,大模型豈不是會越來越聰明?"我驚訝。
"我個人預計,大概20年後,人工智能的算力會達到現在的幾百倍至一千倍。到那時,我們就能做出和人腦復雜度差不多的大模型。"他説。
"你的意思是,那時我們就能做出和人腦一樣聰明的人工智能?"我問。
"希望如此。畢竟越來越多的證據表明,人腦本身沒什麼秘密,算力到了,數據量到了,自然就會達到這樣的能力。而且,復制一個人要20年,它的遺傳還不穩定;而復制一個大模型,我們只需要20分鍾。"
如此科幻的結論,他卻説得很冷靜。
告别浚源和這群老師傅之後,這些話在我腦袋裏反復回蕩。
我感覺自己仿佛站在一扇大門前,雪白的光浪從外面拍打着大門,我站在一個廣袤的新世界跟前,只是尚且不能目睹它的真容。
火山方舟試圖降低"智能的成本"。
而從"智能的成本"這個角度出發去思考,本身就充滿了野心——它在讓腦力勞動标準化。
自古以來,有無數哲學家、經濟學家、社會學家都試圖為人類的思考定價。
然而,人有不同的價值觀,有不同的經歷和過往,有復雜的情感訴求——你我的付出和回報,并非用簡單的成本和收益就能計算。從這個角度來講,并不存在一個普遍意義上的"平均的人"。
以至于,精巧的經濟學理論可能在一個歷史時期做出精确預測,但終究會随着人類精神的進步而走向失效。
大模型這個"人類之子"恰恰解決了這個問題。
當無數個"人類之子"崛起,AI在全社會腦力勞動中占比越來越高時,"智能"就會成為一種新的石油——如汽油按照純度進行标号,人類也将制造出不同标号的"大腦",從而清晰地為"智力勞動"定價。
在這個錨點之上,技術就會成為一個跷跷板:
在它的一邊,AI 的成本不斷下降,去做過去不得不由人類完成的"平均智力勞動";
在另一邊,寶貴的、無法定價的人類思考會從泥濘中解放出來,去思考更加寶貴的、無法被定價的命題。
未來的某一天,我們也許會坐在漫天星光之下,琢磨自己存在的意義。
那時,不知有沒有人會突然回想起幾十年前,曾有這樣一群人為了創造一個完美世界而拼盡全力。