今天小編分享的教育經驗:對話英偉達產品經理:AI推理相比6年前已提速3000倍,效率提升将是今年LLM的主題,歡迎閱讀。
作者| Latent Space
來源| Z Potentials,管理洞察
咨詢合作| 13699120588
圖片來源:Latent Space
技術與基礎硬體進步相結合:Nvidia、Convai高級產品經理Nyla Worker認為改進量化技術的同時,專注于推理,優化現有硬體和未來推理硬體,實現量化與精度雙赢。
打破數據瓶頸:合成數據用于模型訓練是一門藝術,是一項獨特的技能。如何有效地生成數據,如何在3D世界中對生成的對象進行網域随機化,以有效地訓練網絡,本身就是一門藝術。高效訓練大規模模型和量化模型,從而減少所需的計算資源。
AI在遊戲中的應用:計算效率提升對于AI在遊戲及影視中的應用至關重要,延遲是我們今天最需要優化的關鍵因素,以使遊戲體驗更為自然。另外,Convai致力于幫助NPC 需要采取合适的行動,模拟不同角色,構建角色的心智。
本期嘉賓Nyla Worker是Nvidia、Convai的高級產品經理,并且最近加入了Google,同時她還是世界博覽會上"GPU與推理"賽道的主持人。她第一個向我們指出,對于2024年的LLM而言,效率提升将成為主導主題。從她在eBay優化V100推理以用于ResNet-50模型進行影像搜索開始,她見證了諸如多效率提升實例,如GPU推理實現完美硬體并行性、量化感知訓練(最近由Noam Shazeer在Character AI離職前強調)以及模型蒸餾(最近由Llama 3.1論文突出強調)等眾多改進。這些技術與基礎硬體的進步(從V100到A100再到H100以及GH200)相結合,理論上使得現在的推理速度比六年前快了3000倍。
Nyla過去六年的職業經驗,在大語言模型中發揮了作用,特别是在LoRAs、原生Int8乃至三值模型以及教師模型蒸餾方面的應用。我們在這期節目中不僅深入探讨了所有關于效率的主題,還讨論了生成式AI如何應用于遊戲、粉絲自制電視劇、角色AI對話乃至播客等領網域!
AI Charlie:九月快樂。我是您的AI共同主持人,查理。我們在Latent Space探讨的一個主題是效率在各個層面的重要性,從利用有限的計算資源和數據進行樣本效率優化,到為了滿足日益增長的需求場景——比如本地大語言模型、實時AI非玩家角色(NPC)以及邊緣AI——而不斷發展的推理效率優化。
然而,我們尚未深入探讨過這些效率趨勢及其随時間的變化。例如,從2020年到2023年,GPT-3級别的智能處理成本從每百萬token60美元降至27美分,這主要得益于2023年12月的價格戰。請參閱節目注釋中的圖表和數據。至于GPT-4級别的智能處理,僅用了一年多的時間,LLAMA370B就達到了與GPT-4相當的水平,而LLAMA3405B則在開源領網域超越了GPT-4 Turbo,導致每百萬token的混合成本從Claude III Opus和原始GPT-4的超過30美元暴跌至不到3美元的LLAMA3405B。
當然,Open AI自身也未停滞不前,其推出的GPT-4.0 Mini使GPT-4.0的成本降低了30倍。沒錯,GPT-4.0 Mini的價格僅為GPT-4.0的3.5%,但在LM SYS上的表現卻與GPT-4 Turbo持平。當智能處理的價格每年下降超過90%時,推動這一變化的因素是什麼?AI工程師應該如何應對這種變化?
事實上,在計算機視覺領網域,過去六年中已經見證了近3000倍的速率改進。我們邀請了NVIDIA和Convay的Nyla Worker來幫助我們回顧過去,分析現狀,并展望高效的AI推理未來應用案例。請注意,這段對話是在Nyla加入谷歌AI團隊之前錄制的,因此你可以期待她在Gemini團隊中帶來更多的高效工作成果。
Alessio:大家好,歡迎收聽Latent Space播客。我是Decibel Partners的合夥人兼CTO,Alessio,今天和我一起主持的是Smol.ai的創始人Swyx。
嗨,今天我們遠程工作室裡迎來了Nyla Worko。歡迎,Nyla,很高興見到你。
Nyla Worker: 我也很高興見到你們。
Nyla 的職業之路:從天體物理學到 LLM
swyx:我們通常根據嘉賓的職業概況來進行介紹,然後讓嘉賓自己來補充細節。您在卡爾頓學院進行了天體物理研究,之後你進入了機器學習領網域。您在eBay度過一段時光,但您最近四年在NVIDIA工作,從合成數據到雲端容器解決方案都有涉獵。現在您是Convai的產品管理總監。有什麼是您希望人們了解的,但可能在LinkedIn上并不是那麼顯而易見的信息嗎?
Nyla Worker: 我認為不是很明顯的一點是從天體物理研究過渡到人工智能的過程,以及這個過程是如何發生的。在天體物理學領網域,我在大學一年級時的工作是分類某個天體是超新星遺迹還是系外行星。雖然聽起來很酷,很不可思議,但實際上這項工作就是查看氧氣和硫的影像,并手動選擇每個區網域。坦白說,這是極其枯燥的。于是,我發現了一篇1996年的論文,名為"源提取器",或者它出于某種原因稱之為"Sextractor"。這是一個基于合成數據訓練的多層感知網絡,以分類識别出一個對象是恒星還是星系。
這讓我看到了一個強大的優化機器,當輸入正确的數據時,它可以執行并自動化像這樣手動分類的任務。這讓我想要了解更多,如何訓練這些模型?又如何有效地部署它們?如果它對分類星系有用,那麼還有哪些其他應用場景呢?我們可以展示大量數據,訓練這些函數去預測下一個詞或是判斷這是貓還是狗等類似任務。因此我轉向了計算機視覺研究,特别是深度神經網絡的訓練擴展。
那時我使用的是CPU,當然做法是不正确的。後來我去了eBay,在那裡我轉而使用GPU,同時也從事Jetson和邊緣設備的工作。這是一個有趣的過程,展示了這一切是如何連貫地結合在一起的。
高效推理,優化延遲
swyx:今天的很多播客内容實際上都在談論效率以及随時間變化的效率曲線。我之所以邀請您參加這次訪談,是因為我正在尋找能夠讨論這個話題的人。您從計算機視覺領網域的效率曲線入手,帶來了深刻的見解。我想知道您是否可以評論一下,為您的職業生涯中已經見證的事件設定一個背景。
Nyla Worker: 當我剛開始工作時,首先致力于擴大訓練規模并提高訓練效率。随着時間的推移,這一領網域已經有了顯著的發展,關于訓練有很多内容。但我發現,如果想讓這些技術真正有用,你應該專注于推理。随後我加入了eBay,在那裡我在硬體團隊工作,但我的工作是為硬體團隊進行軟體優化,以便AI研究團隊的研究成果能夠在硬體上高效運行。
我開始利用諸如TensorRT這樣的優化框架來優化模型(如ResNet 50)。eBay的AI研究團隊實現影像搜索的方式是一種計算機視覺模型,我們會從這個ResNet 50模型的特定層獲取嵌入(embedding),然後與其他影像進行某種距離計算。這種方法在當時是非常先進的,而我的任務是讓它更高效。實際上,它進入生產環境的方式是單張圖片輸入ResNet 50,即批次大小為一,有一定的延遲。但是產品有要求,對吧?這就是推理變得非常有趣的地方,因為它不僅僅是要做到最快,更是要達到人類可感知的延遲。
在過程中,我們意識到對于特定的推理任務,延遲應該是七毫秒。當然,整個服務可能會在50到100毫秒内完成,這對人類來說幾乎是不可察覺的。所以,我的目标是使硬體獲得最大的效益。
我們評估不同的硬體,但我特别關注的一款是V100,并且我們使用TensorRT進行了優化。TensorRT在後端做了很多工作。例如,它融合了内核,量化了模型,并減少了精度。當然,現在大家都談論量化,但在那時,這還意味着從FP32到FP16的轉換。那時候Intel的技術還非常稚嫩。即便如此,我們将生產環境中的服務從處理一張圖片優化到了七毫秒内處理四張圖片,并且效果非常好。從那以後,我們看到同樣的模型有了顯著的進步,那時我們使用的是2018年的TensorRT和ResNet 50。
四張圖片在七毫秒内處理。如果粗略計算一下,這意味着大約571的吞吐量。而如果你看看過去幾年所取得的效率提升,并考慮到這運行在一個未經特别優化的V100上,你可以查閱去年MLPerf的數據,現在這個數字已經達到了88,000。每秒處理的圖片或樣本數88000。他們使用樣本作為部門。顯然,這不一定是一個完全公平的比較,因為你需要仔細閱讀具體細節,了解他們是如何運行測試的。他們并不是針對延遲進行優化的。他們是優先考慮其他因素,但即便如此,這個數字仍然是令人震驚的,不是嗎?在我在NVIDIA期間,我還學到了其他一些東西。我可以更深入地探讨這個問題。
推理側硬體算力優化
Alessio:是的,沒錯,這很棒。我認為硬體部分尤其重要。比如說,當你在eBay的時候,你提到了V100是當時的頂級硬體。V100大約有130萬億次浮點運算能力(teraFLOPs),而在FP4精度下的GB200則達到了約20,000萬億次浮點運算能力。所以僅從硬體本身來看,如今的硬體要強大得多。我很想聽聽您當時在為現有硬體優化時的想法,以及您在NVIDIA工作期間對未來硬體的洞察,因為現在人們或許還在進行類似的讨論:我們是應該為現有的硬體優化,還是為未來的硬體優化?我們今天需要一個結果,但從商業角度來看,這樣做可能會浪費時間。我很想聽聽您的看法。
Nyla Worker: 看到這兩個世界相互碰撞是很有趣的,因為我加入eBay時,我在硬體團隊,而平台團隊和AI研究團隊是分開的。硬體團隊決定了公司整體的硬體配置,而AI研究團隊則依賴于這些硬體。所以看到這兩個世界之間的認知差距,并親歷其中,是很有趣的。那麼,你如何決定使用哪種硬體?在哪裡進行優化?為未來的硬體構建系統是一個有趣的問題。
正如你所見,我在2018年運行這個項目時,使用的是V100來處理ResNet 50,這在今天看來有些過分了,因為現在除非是一個巨大的批量工作負載,不會使用V100來運行ResNet 50。但你不會在GB100或200上跑這個模型,你會在Jetson設備上運行它,這是一個只需一百美元就能買到的現成設備。
顯然,硬體發生了變化,這更多取決于具體的使用場景以及你未來的發展方向。我堅信,從統計學角度講,很難準确預測兩年以上的事情。芯片将在三年後上市,三年後的世界會是什麼樣子?我不敢确定。回到優化層這一點上來。如果你看NVIDIA的幻燈片,他們會比較同一種芯片在不同年份的表現。他們顯示即使在同一塊芯片上,性能優化每年都變得更好。
為什麼會這樣?讓我們談談計算機視覺,随着時間推移使其性能大幅提升的原因很明顯,例如,我在eBay時将批處理大小增加到四個,它仍然滿足了延遲約束,但僅僅是增加批處理大小,就有動态批處理的概念,這對于大語言模型而言類似于連續批處理或飛行中的批處理。
這些年,我們的量化和量化技術也在不斷改進。比如在2018年,我使用的是FP16,而INT8剛剛出現。關于不同類型量化的讨論已經開始,但技術的發展需要時間。例如,當我在NVIDIA工作時,我們專注于邊緣設備,并特别為邊緣設備開發了框架。我們不僅實現了INT8量化,而且還進行了量化感知訓練,這使得模型可以在這些量化約束下運行。我們也看到了這一點,尤其是在訓練過程中,LLMs表現出更好的收斂性。但這是我們最初在計算機視覺中觀察到的現象。其他的優化還包括FP16,以及許多迭代版本,如bfloat16,從TPU開始,基本上所有硬體都對其精度進行了各種優化,從而提升了性能。你基本上可以從一種硬體切換到另一種硬體,而這些優化會被相應的框架所吸收。
對于計算機視覺,我們看到的其他獨立于硬體本身的優化還包括剪枝。也就是說,在模型訓練完成後,你可以剪掉那些接近于零的激活值。然後你需要再進行一輪新的訓練和部署。在我為NVIDIA與客戶合作時,這種方法使我們的效率大幅提升。不過這種方法目前對于大規模語言模型來說并不高效,但誰知道在未來兩三年内會發生什麼呢?也許有人會提出新的方法。我可以在節目筆記中附上一篇試圖更高效地為大語言模型進行剪枝的論文鏈接。正如你所見,有一些優化是直接抓取硬體的特性,但還有很多優化是發生在網絡本身上,以随着時間推移不斷優化并提高效率。
Alessio:您是否有不同的方法來應對不同的需求,比如降低延遲,或者提高吞吐量?這些技術中是否更适合特定的指标,或者無論如何一切都變得更好?
Nyla Worker: 确實如此。例如,在計算機視覺中增加批處理大小會立即提升吞吐量,但這受到内存限制。然而,作為產品經理,延遲是一個你關心的約束條件。比如,不能超過七毫秒,否則用戶體驗就會變差。在優化過程中,經常會遇到這種情況。
因此,這是一個非常復雜的優化函數。例如,即使是在量化過程中,當我們部署用于識别車牌号的ResNet 18模型時,也需要做出非常明确的權衡,即為了獲得效率提升,我們能在多大程度上犧牲準确性或其他評估指标,如召回率等。在某些情況下,例如在工廠的生產線上,許多物品需要通過,這時你更關心的是延遲問題;而在其他場景下,則可能有所不同。因此,這些優化非常依賴于最終的應用場景。
量化與精度之間的取舍
swyx:我非常喜歡你将你在計算機視覺領網域所見到的情況類比到大語言模型上的這種說法。我對量化精度及召回率之間的權衡很感興趣,無論是精确召回還是其他。在我的感覺中,計算機視覺領網域的精度下降要比語言模型更為平緩。這是準确的嗎?
Nyla Worker: 你是什麼意思?
swyx:當進行量化時,顯然會損失精度,因為擁有的比特位減少了,用來存儲信息的空間也就少了。我的理解是,在計算機視覺中進行量化時,你能夠更準确地保留特征的主要成分,而這正是你真正關心的部分。而在語言模型中,單詞的意義之間存在很多復雜的相互作用,Anthropic稱其為疊加态。當你進行量化時,你可能會丢失那些在語言中非常重要但在視覺中相對沒那麼重要的低位信息。我不知道你對此有什麼看法。
Nyla Worker: 我需要和專家們讨論這個問題,但我的直覺是,模型越小,權重就越重要。我的意思是,如果模型非常小,那麼它的參數數量也會很少。因此,這些參數所傳遞的信息需要更加精确。我的直覺是,例如在ResNet 18上,當我們進行量化而不進行後續的量化感知訓練時,模型的正确率會急劇下降。這是我們必須要極其小心處理的問題,這也是為什麼會有那麼多為此設計的技術。但這是我個人基于經驗形成的直覺。
對于大語言模型而言,由于它們規模龐大,微小的變化可能對它們的影響不如對非常小的計算機視覺模型那麼顯著。當然,在處理大型計算機視覺模型,如Segment Anything等時就不适用了。但如果你有一個非常小的單一任務模型,如ResNet 18,如果你稍微丢失了一些權重,沒有正确地進行量化,那麼你的結果将會迅速變得一團糟。
swyx:我同意這種直覺。現在人們讨論的一個話題是極端量化。有一篇關于三值模型(1.58 位模型)的論文。我不知道這種技術有多大的可行性,但人們正在以開源的方式復制它。很多人在讨論這個話題。我不知道該如何評價它,因為我覺得大型實驗室還沒有真正采用這種技術。
Nyla Worker: 是的,我對那個技術也不确定,但我認為在某種程度上,對于如此大的模型,你幾乎只需要一個方向性的數字,例如"是"或"否"。然後它就像是一個選擇方向的門一樣。因為模型擁有如此多的參數,對于這些門來說,"是"或"否"的選擇比我們得到的具體精确數值更重要。
我喜歡用物理學的角度來思考這個問題。我們為模型找到了非常精确的權重,就像常數一樣,對吧?這些常數已經被證明在很多情況下都是有效的,并且是為特定方程精心選定的。而在超大型模型中,更像是方向性比具體的數值更為重要,這是我的個人直覺,但也有許多常年專門研究量化技術的專家能更好地回答這個問題。
打破數據牆:Nvidia 對合成數據的需求
Alessio:這是從模型推理的角度來說的。你在NVIDIA還做了許多其他出色的工作,特别是在合成數據方面,比如構建影像,還有三維數據等方面。您能大概總結一下你在NVIDIA五年的主要工作嗎?因為我涉及了很多方面,可能不只是推理優化和其中的一些工作。
Nyla Worker: 事實上,我在eBay工作時就接觸到了NVIDIA,并且後來我加入了他們的解決方案架構師項目,在那裡我可以接觸到NVIDIA的所有人工智能客戶,并為他們提供支持。在那段時間裡,我參與了一個輪崗計劃,為零售客戶、邊緣AI客戶和試圖以某種方式利用AI的其他客戶提供支持 。
例如,對于零售業,應用場景包括像Amazon Go這樣的無人商店或零售防盜保護。對于邊緣AI,應用場景包括機器人、制造業以及自動駕駛汽車上的計算機視覺網絡等。這是我的前兩年工作,有數百家客戶試圖利用計算機視覺。也有一些大語言模型的應用,但那時技術還不成熟,它們主要用于推薦系統或搜索。在計算機視覺方面,我們發現了一個問題。然後我決定加入邊緣AI團隊,在那裡我與西門子等大公司合作,了解他們在生產線上的部署情況。
然而,幾乎所有客戶的面臨共同問題:數據。他們可以使用現成的模型,市場上有大量的影像數據集,但這些數據集并不能滿足他們特定的小眾應用需求。例如,在汽車制造線上檢查劃痕是一個耗時費力的工作,而這樣的數據集并不存在。在零售業,貨架上的商品數據不足,而且包裝經常更換。因此,數據非常關鍵。我開始着手生成能夠立即自動支持這些需求的合成數據。例如,我與亞馬遜合作了一個項目,我們在3D世界中合成替換膠帶,這對于亞馬遜來說是一個大問題,因為他們需要快速重新訓練計算機視覺網絡來識别帶有新亞馬遜膠帶的包裹。
這只是一個起點,後來擴展到了機器人領網域。我與Festo合作了一個3D操作器項目,該操作器需要檢測物體的姿勢。怎樣才能得到姿勢數據?傳統的方法是給物體貼上标籤,比如二維碼,以便獲取一些真實數據進行标注。但這是不可能的,這就是合成數據真正重要的地方,因為你無法在每個位置都獲取物體的姿勢數據,而且這樣做會幹擾物體本身,在現實世界中,物體上不會有二維碼标籤。這就是我看到所有需要合成數據的地方。
我與像Jonatan Tremblay這樣的傑出研究人員合作,進行了大量的3D和合成數據生成研究。我們遇到了數據瓶頸,無法僅憑現有數據繼續前進。現在該怎麼辦?我認為我們将在大語言模型上看到類似的情況,我們将遇到數據瓶頸。然後該怎麼辦?顯然,也有為大語言模型生成合成數據的技術,讓我們拭目以待其發展。在将合成數據產品化的過程中,我意識到使用合成數據進行訓練是一門藝術,是一項獨特的技能。例如,如何有效地生成數據,如何在3D世界中對生成的對象進行網域随機化,以有效地訓練網絡,這本身就是一門藝術。但總的來說,這就是将所有事情聯系在一起的關鍵。
Alessio:是的,這很好。我認為在考慮大語言模型時,我們之前在Chinchilla和一些擴展定律上所做的優化思考是為了找到一個恰當的平衡點,而不是針對任何特定方面進行優化。而現在,我們只是專注于優化推理。我們在算法層面,甚至在GPU層面,通過一些新的數學方法和像Cutlass這樣的矩陣乘法工具來做這項工作。但在數據方面,我們還沒有到達需要大量生成合成數據的地步,這似乎與機器人技術和3D環境中的需求形成了對比。
在3D環境中,合成數據并不多。因此,目前大部分工作仍然集中在獲取更多的數據上。我們還沒有真正看到太多類似Sora這樣的令人印象深刻的應用,雖然它與3D有些相關,但實際上輸出是二維的,但它有自己的3D引擎,可以運行任何想法。
在遊戲引擎中生產合成數據
Alessio:您可以談談你在3D合成數據方面所見,并思考我們在大語言模型方面還有多遠的路要走,比如我們何時将需要真正擴大合成數據的規模,以使這些模型能夠突破下一個性能障礙。另外,對于Sora,您有什麼看法?我知道這個模型非常私密,沒有多少人有機會實際操作過它。
Nyla Worker:我對于Sora沒有什麼看法,我認為它讓許多從事這方面研究的研究人員感到困惑,甚至引發了他們是否應繼續研究的危機。但是對于Sora我沒有太多可以評論的,正如你所說,它非常私密,關于他們是否使用了Sora也僅僅是傳言。
關于來自遊戲引擎的合成數據,這類技術是存在的,但我不确定具體細節。我能說的是,我的合成數據產品是基于遊戲引擎生成時間連貫的數據,例如,這适用于姿勢估計,同時這種估計是基于物理信息的,因為遊戲引擎提供了物理屬性。這樣生成的數據可以用于訓練。例如,對于物體生成,遊戲引擎會賦予它們一些邏輯,比如它們具有一定的重量,你可以對這些屬性進行參數化。因此,這會為那些我們難以獲取信息的場景生成非常好的合成數據,并提供高質量的真實标籤,與視頻相比,即使是由人工标注的視頻,也可能在時間連貫性上出錯。
那麼這一切與大語言模型有何關聯呢?我在NVIDIA工作的最後幾個月裡,我致力于幫助改進和加速3D内容創作流程。在這方面有很多模型正在增強3D内容創作的流程。例如,我們可以從基礎開始,比如文本到紋理。比如你可以更好地在3D世界中對資產進行紋理化處理。文本到材質,通過簡單的文本提示即可獲得材質。接着是影像到3D,Sanyas Fiedler團隊和Ming Yu團隊創建了很好的模型。此外還有Dreamfusion等專注于3D内容生成的研究。
即便如此,由于這些資產可能存在幾何錯誤,你仍需對生成的資產進行重新拓撲化。因此還有一些正在進行的研究,旨在将其轉換為正确的拓撲結構。我看到了所有這些技術的融合。就像我之前提到的,我們現在有點像是處于3D生成的GAN時代。你看到了前景,但生成的結果可能仍很可怕,比如生成的"瘦長鬼影"對象。我有一個項目就是使用此生成資產,結果就是一個瘦長鬼影。實際上,我将Andrej Karpaty的形象通過一個3D生成機器生成,結果變成了一個瘦長鬼影形象,但我們在進步。
我認為技術将以非常有趣的方式融合。我們已經有了視頻生成,但視頻生成并不具備3D空間的靈活性。一旦我們能夠生成較少缺陷的3D内容,就會帶來全新的體驗。我預見未來将有各種3D世界的角色和無盡的體驗,創造全新的娛樂層次。這也是我加入Convai的原因之一。在那裡,有這些具身化的3D對話角色,它們進行任務規劃,周圍的環境也是完全生成的。
我們已經有了一些程式化生成,想象一下,如果你可以自由表達你的想法,場景中的所有元素都将随之生成,或者根據你的興趣生成你喜歡的世界,為你創造某種體驗。我相信這就是我們未來發展的方向。這也是我一直在努力的方向,技術正在融合并且迅速發展。
模型蒸餾
Alessio:另外,我認為我們還可以讨論一些關于推理的話題,除了我們已經提到的之外,另一個方面是如何擴展模型以實現更好的性能,這其中就包括了合成數據的應用。您覺得我們還有什麼遺漏的地方嗎?我想知道,在這方面,還有哪些是您特别想讨論的内容。
Nyla Worker: 我們可能遺漏的一點是如何有效地訓練大語言模型。我們基本上把整個互聯網所有能獲取到的标記數據都塞進了模型中。顯然,OpenAI做了大量的工作來剔除有毒的數據等,但這仍然是相當粗暴的方式,就數據量而言,我們認為數據越多越好。然而,當你試圖将模型應用于某個具體場景時,你會發現其實并不需要一個能做數學、物理和計算機科學計算的模型來告訴你一輛車的顏色。我們在計算機視覺中看到了這一點,比如模型蒸餾。
我們最初從ResNet 150開始,然後嘗試了其他模型,但在一段時間内,我發現一個有趣的現象:ResNet 50總是重新出現。人們會轉向VisionNet、視覺變換器(Vision Transformers),但很快又發現,視覺變換器并不容易訓練,需要大量的數據,所以他們會回到ResNet 50,或者嘗試其他模型,結果發現ResNet 50仍然有效。無論如何,這适用于非常受限的應用場景。或許這也意味着在實際應用中,我們會不斷回歸到那些經過驗證有效的模型上。
Alessio:這很有道理,我們可能還在尋找不是Transformer的其他東西,也許教訓是:我們不應該偏離太遠。
Nyla Worker: 是的,雖然我沒有像三年前那樣深入編碼,但從閱讀論文和與Google DeepMind的研究人員交流中,我發現他們選擇某些函數是因為這些函數在計算上更高效,比如多頭注意力機制,它在并行訓練方面的表現優于LSTM。這種計算效率和我們能夠塞入更多數據的能力是非常重要的。當然,也有一些重大突破,但我認為這是旅程中一個突出的方面。
Alessio:你認為現在人們在訓練階段有哪些誤解?我們談到了推理優化和數據方面的問題。在訓練方面,你還有什麼想說的嗎?
Nyla Worker: 正如我提到的,目前的訓練過程是非常低效的。當我們發現真正有價值的用例時,我們将能夠通過訓練過程找出真正有價值的數據。我認為,一方面,我們可以維持同樣的大規模模型,但訓練得更高效,并更高效地量化模型,從而減少所需的計算資源。另一方面,既然我們知道這種方法有效,我們可以進行模型蒸餾。
不過,模型蒸餾的有效性仍然有待商榷,比如我們能否讓一個類似于Mistral 8位的模型在受限條件下表現出與ChatGPT或GPT-4類似的性能。我認為對于某些特定的用例,我們最終會實現這一點。例如,Databricks助手結合了不同類型模型的優勢,以協助完成特定任務,既考慮到成本也考慮到實際需求。
如果你在執行agent操作,你肯定不希望因為計算資源過于消耗而導致你的SaaS業務的利潤率受損。這些都是幕後發生的事情。像Copilot這樣的工具受到了人們的喜愛,盡管它比GPT-4要小得多。
swyx:我認為他們已經對OpenAI最初的Codex模型進行了多輪蒸餾以用于Copilot,這确實是有道理的。我一直在嘗試梳理蒸餾的哲學,并試圖區分不同的蒸餾目标。一種是人們通常所指的知識蒸餾。但對于大語言模型來說,它也開始包含偏好蒸餾。也就是說,你可以使用大語言模型作為裁判,基本上是從一個模型中竊取強化學習人類反饋(RLHF)的能力并轉移到另一個模型上,這樣你就有了相同的RLHF偏好數據,而無需支付成本。
然後還有推理蒸餾。我認為有一些模型,比如orca模型,你可以将思維鏈輸入模型中。此外,還有很多基準測試的遊戲化。眾所周知,你可以将基準測試的知識蒸餾進模型,從而使其在基準測試中的表現更好。但目前不太為人理解的是,那些不可被遊戲化的排行榜,比如LMSys排行榜,同樣有可能被遊戲化,你可以蒸餾出較小的模型,使其在這些排行榜上表現良好。
Nyla Worker: 在計算機視覺領網域,我們經常看到有人在基準測試上做手腳。我不相信那些數字接近的基準測試結果。這種情況現在已經變得毫無意義了,因為它已經被完全遊戲化了你只需投入最多的計算資源,然後選擇一個符合基準測試要求的檢查點,然後提交結果。我遇到過訓練大規模模型的人告訴我,他們無法重現這些結果,這些結果完全不可重復,但他們有一個檢查點,那次它成功了,于是他們就提交了論文。
swyx:這就叫是研究生的無奈。
Nyla Worker: 是的,你絕對不能信任這種情況。這也是為什麼我會花很多時間和客戶一起确認,這是否是一個有效的測試集?這真的是你的測試環境嗎?這确實是你需要驗證的内容嗎?達到這樣一個可以驗證的狀态是非常具有挑戰性的。
swyx:為了讓大家與時俱進,你了解FineWeb嗎?這是一個來自Hugging Face的數據集,類似于清理過的C4數據集,但他們使用大語言模型不是用來蒸餾,而是用來過濾數據。利用大語言模型來提高數據質量似乎是未被充分探索的領網域。從FineWeb項目的初步結果來看,你可以用少十倍的标記數據來訓練出相同質量的模型。也就是說,使用100億數據與使用10億标記數據相比,在GPT-2架構上訓練出的模型質量相當,甚至稍微更好,這體現在困惑度和評估分數上。這很有趣,因為它并不是合成數據,而是通過其他形式提高了數據的質量。
Nyla Worker: 的确。對于合成數據,我們發現如果提供的數據分布正好符合你在現實世界中的需求,那麼是足夠的。這意味着你不需要像以前那樣使用那麼多的樣本進行訓練。某種程度上,我覺得這就像在埃克塞特這樣的地方教育孩子一樣,孩子的聰明程度并不重要,因為信息被很好地傳遞給他們,特别是有些學校能夠很好地匹配合适的信息給你。
對于人類來說,這種方式是有效的,我不明白為什麼這種方式在這些模型上就不适用。我們在計算機視覺領網域看到了它的效果。只需要一個小數據集,只要數據是合适的,并且很好地适應了需求,模型就能正常工作。這就是我們得出的經驗。
傳統 ML 與LLM 通向AGI的路徑
swyx:我認為這裡的問題在于,雖然我們理解如何在傳統的機器學習環境中做到這一點,但當你試圖構建AGI時,現實世界是全方位的。沒有什麼可以用于專門優化的目标,因為它涵蓋了一切。那麼,您如何為所有内容優化呢?
Nyla Worker: 我認為AGI将會出現在AI能夠獲得完整反饋的領網域,這只是我的直覺。例如,在編程環境中,AI将有能力重新運行代碼并重新評估其性能,這樣就會奏效。但是,對于那些無法獲得反饋的情況,我還不清楚該怎麼做。比如在機器人技術中,我們需要首先擁有非常出色的抓握傳感器或視覺傳感器,以便最終能夠形成某種反饋回路。但這更多屬于強化學習的範疇,我們已經在其中看到了超人的表現,但它是在使用大語言模型中。我認為我們仍在利用現有的資源進行估計。這是一個非常有趣的話題,但關鍵在于你如何定義它,以及如何衡量它。
swyx:除了定義之外,我想傳達的是傳統機器學習的思維方式,即先理解問題,然後設計數據集和架構來适應這個問題。但是在基礎模型範式下,沒有具體的問題可以優化,因為你試圖建立的是一個通用的、适用于所有事情的模型。
Nyla Worker: 然而,我們用大語言模型做的事情是選擇下一個詞。我的觀點是,文本是完全标記的數據,因為它是人類輸出的内容。我們看到諸如"教科書就是你需要的一切"的論文,這是因為教科書信息密集,是人類多年精心雕琢每一個字的結果,而大語言模型從中學習。這是一種多任務學習,它通過這種精心挑選的學習做了很多事情,所有内容都是被标記的。
我認為這很接近人類智能,但我不确定這是否會成為最佳的人類智能。比如,誰能夠寫一本量子力學的書,而AI現在能夠預測量子力學教科書中的下一個詞,這可能是人類智能的最佳體現。但我并不完全确定。我對AGI的定義是它能夠自我提升,并且遠遠超過人類所能創造的任何東西。我并不完全相信我們現在擁有的技術能夠實現這一點,但也許我是錯的。這是我目前的觀點。
ConvAI - AI NPC
swyx:我們可以把這個話題留到喝咖啡時閒聊,現在繼續講Convai。
Nyla Worker: 我加入了Convai,這是一個制作對話型3D AI角色的公司。這些角色顯然具有我們之前讨論的大語言模型所賦予的認知能力,這是一種增強檢索的生成模型。這些模型能夠進行對話,我們有文本到語音、自動語音識别等功能。我們正在集成多模态技術,例如,我們有一個多模态網絡可以讓NPC感知世界。NPC指的是非玩家角色。我們非常注重這些角色的具身化。如果你訪問我們的頁面,你會看到我們與所有Avatar創建平台的集成,例如Relution或MetaHuman,這樣我們就可以給這些角色賦予身體、表情和個性。
我們使用工具來動畫化面部,并利用動作模型——這是一種大型語言模型的微調版本,帶有四個動作——使得這些遊戲中的角色能夠執行動作。比如,如果你告訴它,"到這裡來,給我拿一把斧頭",它就會去給你拿一把斧頭。這就是我們所做的工作。我們發現這些技術在遊戲領網域非常有用。例如,有一個獨立開發者制作了一款遊戲,你需要說服NPC撤離某個區網域,否則你就要消滅它們。這是一個應用場景。此外,還有一些社交遊戲機制正在探索,比如說服其他人撤離的能力,看你怎樣運用社交技巧來實現這一目标。
這是在遊戲方面的一些應用,我們還看到這些技術被用作品牌代言人。比如,我們已經看到了聊天機器人,它可以回答你關于X公司的所有信息,并充當客服角色。但這只是開始,下一代的品牌标志将是代表你品牌的角色,它說話像你的品牌,看起來像你的品牌,發型、面部特征等都符合你的品牌形象。這是我們非常重視的另一個領網域。
swyx:有沒有什麼知名的品牌可以鏈接到這一點?我知道一些Instagram上的AI influencer 或AI包裝者,但我不知道是否有品牌身份的例子。
Nyla Worker: 我們有一些即将推出的東西,但我不想透露太多細節。
swyx:即使不是你們做的,但你知道業界有公認的金标準或其他類似的東西。
Nyla Worker: 是的,有一些品牌大使。Jensen在GTC Computex上發布了一個關于數字人類的重要公告,講述了數字人類在未來的作用。例如,Hypocratic正在塑造一名護士,也就是一位數字護士,我可以告訴你有關它的信息。我認為這是一種全新的與計算機互動的方式。因為這種方式更加人性化,包含了品牌的所有信息,具備品牌的風格,就像網站所介紹的一樣,現在它還有聲音,并且它也是傳輸信息的方式,高度針對與該角色交談的人。你已經在Computex上看到各種品牌代理的醫療助手在做這樣的事情。
swyx:一個有趣的事實是,我确實在Computex現場。我剛從台灣坐飛機回來,并且我看到Jensen在一位女士的身體部位籤名,這件事在社交媒體上引起了廣泛傳播。他就像一個搖滾明星一樣,到處都被一大群人包圍着。我相信這對他是很不舒服的,但他似乎接受了這種狀态。
Nyla Worker: 你能想象過去五年發生了多大的變化嗎?當我加入時,他在NVIDIA内部是深受愛戴的,NVIDIA對Jensen有着近乎宗教般的追随,但在NVIDIA之外并不是這樣。而在過去一年裡,他變成了一個巨星。很難想象那是什麼感覺。
swyx:是的,太瘋狂了。Lisa Su也在那裡。這就像是一場家庭聚會,因為他們彼此是表親。我認為他們沒有在同一間房間裡,但有很多人在崇拜這些GPU之神。
讓我們回到agent上來。有很多品牌和聊天機器人。我覺得這些都是同一件事,像代理、聊天機器人一樣。我認為人們誤解或不太理解的是,需要哪些完整的堆棧才能實現這一切?有LLM,有增強檢索(RAG),有語音合成。還有什麼是我遺漏的嗎?
Nyla Worker: 面部動畫,手勢動畫。
swyx:視覺。
Nyla Worker: 視覺也是缺失的一部分。所以我們正在進行的一個項目,我們正在與客戶合作,它現在更像是幕後工作,但它涉及到一個可以看到你、與你交談并對你的反應作出回應的agent。
例如,我們有一個演示,雖然是非公開的,角色會看着你說,你為什麼用那種表情看着我?這改變了整個流程,因為現在如果你只是與它交談,這與它能看到你、看到你的反應并開始交談完全不同,這會改變你的狀态,并且基于此做出反應。
我認為所有這些元素共同構成了一個真實的體驗。這感覺很不一樣,很難解釋,但當你與這些角色交談,它們看着你,并且它們的面部表情随着你的動作而變化時,這感覺像是一個巨大的改進。
swyx:是的。我在Computex現場時,他們展示了一種懸浮玻璃設備。它有點像一塊玻璃,但裡面有一塊螢幕。你可以透過它看到東西,但它也是一個螢幕,一個全息圖。看起來非常逼真,好像它們站在那裡一樣。但如果走近一點看,你可以看出它是假的。他們的眼睛會在你走動時跟随你。它們真的在看着你。這有點令人毛骨悚然,但顯然存在延遲問題。
Nyla Worker: 這是整個行業追求的方向,我認為我們會實現這一點。這就是為什麼所有的讨論都集中在推理上。我的大腦總是朝這個方向思考,因為延遲是我們今天最需要優化的關鍵因素,以使體驗感覺自然。
正如我在eBay的工作,我的任務是降低推理延遲,使之對我們來說感覺自然。而現在,随着NPC的發展,我們正朝着這個方向前進,并且很快就會實現。另一點是讓角色帶着正确的情緒看着你,檢測你的語氣。例如,我們與NVIDIA合作做了一個拉面店體驗的演示。對于角色來說,去拿拉面是非常重要的,當它與你交談時完成這些動作,并且反應時間要自然,這些都很必要。
我個人認為對話只是這個旅程的第一步。角色需要能夠在世界中執行某些動作。例如,我們正在使用 "第二人生"(Second Life),我們的NPC負責教你如何進入這個環境,甚至把你介紹給其他人。因此,它們不僅僅是進行對話,還會指導你,比如,如何拿起衝浪板。在Second Life中你可以衝浪、飛行、跳舞,但除非有一個像AI助手一樣的角色引導你,同時具有個性并融入Second Life的環境,否則你可能不會知道這些。這些是我們看到的所需的功能。不僅僅是對話這麼簡單。
Alessio:我玩電子遊戲很長時間了。我覺得這就是一直以來很難完全沉浸其中的原因之一。就像在你開始與NPC交談之前,你可能殺了十幾個人。然後你和NPC交談時,NPC卻說,真是美好的一天。這就像是,它完全沒有意識到周圍發生的事情。所以這個改進看起來是一個巨大的進步。
Nyla Worker: 我們看到mods在做這個。前幾天有個朋友打電話給我,他說,嘿,我需要一個mod。在我把Howard's Legacy的商店洗劫一空後,NPC卻說,你好,今天我能怎麼幫助你?我洗劫了你,請回答。
Alessio:是的,正是如此。
模拟不同角色以進行訓練
Alessio:我們大約兩三周前有一期節目是關于模拟AI的。您是如何看待NPCs和遊戲的?您顯然在模拟機械環境方面有很多經驗。對于更像語言或思維環境的模拟,你是否也認為NPCs可以作為模拟我們希望從大語言模型中獲得的行為的一種方式?
Nyla Worker: 你能詳細解釋一下你的想法嗎?
Alessio:比如,考慮一個處理郵件的agent,你可以測試大語言模型生成文本的能力,你無法模拟結果會怎樣,但是你可以有不同的NPC,比如銷售代表NPC和顧客NPC,然後你可以模拟它們之間的對話,從而了解顧客可能會提出什麼樣的反對意見等等。您提到了面向消費者的品牌的用例,那麼内部呢?您是否看到了企業内部某些功能的數字孿生?
Nyla Worker: 是的,我所看到的是有兩個方面。一方面,我們有NPC對NPC的功能,你可以看到兩個NPC之間的模拟對話。根據你如何構建這些角色的心智,例如,在Jean和Nova的演示中,Jean只懂拉面,所以他只會回復與拉面相關的内容。而Nova則掌握了CES期間發布的最新GPU的信息,所以她會不斷談論GPU,而Jean則不斷談論拉面,這種混合對話非常有趣。
我可以想象這在企業中是如何運作的,你可以設定一個與銷售代表完全持相反意見的NPC,然後你可以觀察他們的分歧以及他們的反應。企業正在使用的其中一個用例是員工培訓。例如,你想訓練醫生如何應對不同的病人,有的病人态度惡劣,有的病人态度友好。因此你可以創建具有各種反應的NPC。但這是企業賦能培訓的早期階段,這種培訓更為現實,使用了類人角色。讓我們拭目以待。
Alessio:這聽起來很棒。我認為這也許是人們在想到NPC時的一個誤區。人們通常想到的是電子遊戲。但大多數實際的用例似乎是商業性質的。雖然電子遊戲市場很大,但最終能夠銷售給的大型遊戲發行商并不多。
Nyla Worker: 我認為在遊戲方面,随着AI體驗的到來,将有一種新的互動方式出現。它是在遊戲中,但它更像是一種全新的娛樂形式,包括對話生成、程式化世界創建等。我們将在未來幾年内看到這種情況的發生。對我來說,這是顯而易見的,但正如你所說,的确,大型工作室很少,而且它們有自己的開發方式。
它們有時不太願意嘗試新的遊戲機制,這就是為什麼我們看到很多創新來自獨立開發者。像Convai這樣的工具受到開發者的喜愛。我們在Unity和Unreal資產商店中都是最受獨立開發者歡迎的資產之一,他們正在探索并提出驚人的創意和遊戲。但總的來說,我們在遊戲之旅上還處于早期階段,但我相信這将會到來。而在商業用途方面,這些人形實體也将變得不可或缺。
Alessio:關于内容方面,我知道你們做了一個關于AI愛情故事的AI生成播客。在這方面有什麼最新的進展嗎?您是否有看到其他有趣的項目,或者從中得到了什麼學習經驗?
Nyla Worker: 我創造了第一個由AI生成的播客。那周ChatGPT發布了,我當時就想,哦,這個比GPT-1好多了。然後我就想,我們可以生成标題,可以生成圖片,可以生成聲音,我們可以用AI做所有的事情。于是我趕緊拉着我的室友一起做了這件事。她說,為什麼是今天?我說我們必須發布它,不管怎樣,我要那個頭銜。因為我想要一切都是由AI生成的,沒有任何人為幹預,連編輯也不例外,一切都必須是生成的,它确實做到了。盡管那是一個相當糟糕的播客,但你可以看到它有可能變成一種新的娛樂形式。
Alessio:是的,我很好奇這些模型将如何允許相同的IP在不同格式中重用。我一直在看Amazon上的Fallout電視劇。我喜歡Fallout系列遊戲,但自從《Like a New Vegas》發布以來已經過去了十年,直到他們真正制作了一部關于它的電視節目。如果擁有模型的IP所有者,比如NPC等,能夠重新利用這些内容,那就有趣了。這是視頻遊戲,這是電視劇,這是動漫,這是YouTube短視頻版本,諸如此類。我認為有大量的粉絲需求。你在同人小說界也能看到這一點,人們總是為同一個系列創作新的作品,比如《哈利·波特》,只是為了有更多的東西可讀。所以我很想知道這會對新的IP產生什麼影響,特别是當成功的IP有這麼多迭代時。
Nyla Worker: 我認為在擴展IP方面還有很多事情要做。這讓我感到非常興奮。比如說,你花了數年時間制作一個遊戲,為什麼不使用AI對其進行修改,以延長其生命周期呢?我認為,随着AI角色的加入,修改将成為一個巨大的領網域。顯然,這裡存在一個知識產權的争論,我不太想深入讨論這個問題,因為這涉及到很多復雜的情況。未來幾年肯定會有大量的法律訴訟來解決這些問題。但我認為,最終你會有一個非常有趣的未來,你可以與你喜歡的角色交流,與他們冒險,如果虛拟世界變得更加普遍,你就可以做到這一點。我加入Convai的原因之一就是我想與愛因斯坦交談,和他一起散步,就像我和我的物理教授那樣。當然這只是其中一件事情,但當你能夠創造這樣的事物時,這個世界會是什麼樣子呢?也許還可以與我最喜歡的科幻角色交談。
Alessio:尤其是對于那些擁有大量訓練數據的新角色來說更是如此。比如Sean Carroll,我希望能随時有Sean Carroll來解釋所有這些東西。他讀了很多書,參加了很多播客,所以有很多可以用來訓練的數據,但現在我只能聽他的播客。
Nyla Worker: 令人興奮的是,你将擁有這個人的官方授權實體。比如這個大語言模型是由X人批準的。這樣,即使你不是直接與Jensen交談,你也知道你是在與經過授權的Jensen Huang交談。你會覺得更放心,因為這樣你接收的知識就是他們提供的知識。愛因斯坦的問題在于我不知道他是否會授權我的虛拟生成。然後我們讨論了IAC,但這并沒有……
Alessio:我覺得,這些傳奇物理學家生活在一個非常瘋狂的時代,比如20世紀初到中期,那時候經歷了兩次世界大戰,發生了各種瘋狂的事情。将這些經歷建模進去将會非常有趣。
Nyla Worker: 确實,那些書籍使我進入了物理學的世界。那時我是個優秀的計算機科學家,18歲時就已經做了很多編程,物理學從他們的角度來看顯得如此酷,讀了他們的書之後,我覺得,好吧,我要試試這個,但遺憾的是,我無法復制他們的一些成就。
Alessio:這對任何人來說都很難。我們知道我們已經占用了你很長時間,但我們聊了很多。還有什麼遺漏的地方,或者你想要向觀眾傳達的信息嗎?如果你想招聘團隊成員或者其他什麼,都可以告訴我們。
Nyla Worker: 如果有人對AI角色非常感興趣,請聯系我。你可以在LinkedIn上找到我,或者發郵件給我。我的私人郵箱是[email protected]。所以,如果你對3D角色感興趣,或者對合成數據好奇的話,請聯系我。我在這一領網域花費了很長時間,所以我可以與你探讨這個話題。
Alessio:太好了,Naila,謝謝你今天的分享。
Nyla Worker: 好的,保重,再見。
原文章:Efficiency is Coming: 3000x Faster, Cheaper, Better AI Inference from Hardware Improvements, Quantization, and Synthetic Data Distillation
https://www.latent.space/p/nyla
編譯:Juan Wang
-----------
END
點擊下方卡片,關注管理智慧
喜歡這篇文章
請為我點贊和在看
>