今天小編分享的互聯網經驗:王小川的大模型寄托,仍然是搜索,歡迎閱讀。
以 ChatGPT 和 Claude 為代表的面向普通用戶的生成式 AI 都面臨一個類似的問題:它足夠智能,但仍然不好用。
這個問題直白,卻是一個相當終極的問題。大模型在一次次整體性的預訓練中瞬間被灌入新的知識,但每兩次預訓練之間,限于訓練成本等因素,總有一段不短的時間間隔。在這段時間裡,新知識就變舊了。
于是雖然這些出色的大語言模型有極強的知識結構化能力,但對于更即時性的問題,以及大量的長尾知識,它們仍然一籌莫展。
持續進行預訓練是大模型未來的一個進化方向,一個更大參數量級的模型在想象中可以更有效率的觸及到長尾知識。但這兩者似乎天然存在着成本與規模之間的矛盾。
不考慮成本,矽谷的工程師們已經在讨論怎麼把 1000 萬顆 GPU 聯在一塊做模型架構了。但這在目前仍然不是一條現實道路。
當下 GPT-4 的訓練規模是 2 萬顆,而要湊足 1000 萬顆 GPU,英偉達需要心無旁骛的苦幹 10 年。
王小川在 6 月中旬 Baichuan-7B 發布的隔日去了美國,得知了 "1000 萬顆 GPU 相連 " 的暢想,可能也更明确了百川智能在國内的前景。
大模型中的長尾知識與即時性,現階段反而是看起來已經陳舊的傳統搜索的機會。
重新出山的王小川一直在努力定義自己做大模型的正當性。他頻繁強調自己和百川的搜索基因,并且在不同場合多次提到同一個故事:
" 很多人說我特别适合做大模型,(但)我做了 20 年搜索,從來沒一個人說過我特别适合做搜索。"
在王小川看來,搜索裹挾在移動互聯網的大背景下,一刻慢處處慢,何況是和百度之間 4 年的差距。但來到大模型的戰場,突然間過往皆為序章。搜索與大語言模型在技術有不少重疊處,但相比搜索,大模型更吸引人,也處處是新的。
從 7 月發布 Baichuan-13B-Chat,短短一個月時間 Baichuan-13B-Chat 在 Hugging Face 上已經有了超過百萬的下載量。而從 4 月公司名字官宣,到兩款開源大模型的發布,四個月内百川智能已經在一些場合與智譜 AI、MiniMax 這些在大模型領網域積累了超過兩年的公司同樣受人矚目。
" 現在 103 人了 ",王小川透露," 差不多一天招一個人的速度。"
這是百川智能現在的規模。
在百川智能目前超過百人的團隊裡,有超過 30% 的人來自搜狗,這個王小川的舊事業。這個團隊中最新加入的是洪濤,這位原來搜狗的首席營銷官在未來将會負責百川智能的商業化業務。他在自己的朋友圈公布了這個消息,也預示百川智能的商業化即将開始。
百川智能在 8 月 8 日發布的第三個大模型似乎也在印證這一點。在 7B 和 13B 兩個開源大模型後,百川智能發布 Baichuan-53B,後者在參數量上相比之前大了數倍,并且這次的 Baichuan-53B 是一個閉源大模型。
在技術迭代上,Baichuan-53B 開始 " 回歸 " 搜索。
這裡的 " 搜索 " 或許用 " 檢索增強 " 來定義更加準确,簡單來說就是給大模型外接一個通往互聯網世界的路徑,在接收到超出預訓練範圍内的提問時,模型會接入搜索引擎或知識庫來進行具體的搜索,尋找答案。
2023 年年初 Google 在 AI 頂級會議 ICML2023 發表的論文《Large Language Models Struggle to Learn Long-Tail Knowledge》曾對檢索增強大語言模型有過系統的論述。
研究證明了大語言模型回答問題的能力與預訓練期間看到的與該問題相關的文檔數量之間有很強的依賴性。當模型變大或者見到相關問題越多的情況下,模型回答問題的能力越強。但當一個問題如果只在預訓練階段出現過 10 次以内,大語言模型回答正确的概率趨近于零——這點無論在 Bloom 或者 GPT-3 身上表現都相似。
但改進方法中,增加收集數據的規模或豐富程度對結果的影響微弱,而如果要擴大模型參數,Google 團隊的預測是一個千萬億參數級别的 Bloom 模型才能達到人類大腦對于長尾問題的準确率。相對來說,增加一個輔助檢索模塊是更有前景的方式。
最新鮮的例子就是 ChatGPT Plugins。但由于 OpenAI 本身跟微軟是兩個獨立的實體,搜索對于 OpenAI 來說 " 相當于一個黑盒 "。
王小川表示相比其他大模型的檢索增強,"(Baichuan-53B 中)搜索跟模型的結合從非常底層的地方就開始去融合了 "。他給百川智能的檢索增強下了一個 " 搜索增強 " 的定義。
圖源:百川智能
Baichuan-53B 中的搜索增強系統融合了包括指令意圖理解、智能搜索和結果增強等關鍵組件的多個模塊。
在指令意圖理解階段, 首先指令任務被細化為 16 個獨立類别,分别以 Prompt 增強技術——即通過構造特定的輸入提示來引導模型生成期望的輸出——進行了個性化的設計和優化;而對于超參數的設定對模型在訓練和生成過程中的性能影響,動态超參數調整技術,baichuan-53B 采用了動态超參數調整技術來根據任務類型的特性自動調整和優化超參數。
在搜索結果環節,Baichuan-53B 中包含一個搜索結果相關性模型,該模型會對從搜索内容和知識庫中獲取的信息進行相關性評分。 該相關性模型也可以作為獎勵模型,用于在強化學習訓練階段進一步優化意圖理解模型,提高其對人類指令的對齊度,并更高效地調用搜索引擎;RLHF 技術也将用于搜索結果的訓練和優化,使得回答結果更準确并且人性化。
但在核心的 " 如何辨别這個問題是否需要調用搜索引擎或知識庫 " 的決策上,百川智能稱其 " 采用了一種靈活的策略 " 來生成精确響應,并未透露太多技術細節。對于接入的是哪一家搜索引擎,王小川表示目前還不便公開。
王小川表示,模型尺寸變大導致部署成本增加,是 Baichuan-53B 決定轉向閉源的原因。但這個閉源的時間點仍然顯得敏感。
此前 Baichuan-7B 以及 Baichuan-13B 曾經被質疑有 C-eval 測試集洩漏的問題,而有開發者表示 Baichuan 系列大模型的架構與 Llama 極度相似。等到開源的 Llama 2 在 7 月下旬推出,時間點在 Baichuan-13B 之後。相比 LLaMA,花了四個月迭代出的 LLaMA 2 在預訓練模型架構上幾乎沒有變化。
LLaMA 在模型架構本身的優化上看起來開始停滞,這是否是形态可能也十分接近 LLaMA 的 Baichuan-53B 不再需要開源的原因?
對于這個問題,王小川表示 LLaMA2 比 LLaMA1 所新增的 9 個技術創新點基本都在 Transformer 框架層面,其中有 6 個在在百川自己研發的模型裡已經做到了。" 剩下兩個沒想到,有一個試完覺得不太行 "。
而對于模型架構靠近 LLaMA,王小川表示是出于生态兼容的考慮。
" 開源之後,生态會圍繞 LLaMA 去構建,在國外有很多開源項目是跟着 LLaMA 去推動的,(這也是)我們的結構為什麼跟 LLaMA 更加接近。"
對于王小川和百川智能來說,搜索與大模型的融合将成為未來百川系列大模型穩定的亮點,Baichuan-53B 的 API 也會在下個月開放。而按照設想,在這個 50B 的大模型發布後,百川智能将在 Q4 發布一個 175B 的的千億大模型。除此之外,王小川透露,百川智能面向 C 端的 " 超級應用 " 也已經開始部署,并且不只一款。
一切都在緊湊的推進。而首先," 年底做出中國最好的大模型 " 這句話的兌現時刻已在眼前。