今天小編分享的科技經驗:阿裡、百度雙雙出手,大模型長文本時代終于到來?,歡迎閱讀。
全民 Long-LLM 時代終于到來。
本月,中國初創 AGI(通用人工智能)公司月之暗面宣布旗下大模型工具 Kimi Chat 正式更新到 200 萬字參數量,與五個月前該大模型初次亮相時的 20 萬字相比,提升十倍。Kimi Chat 的更新徹底引爆市場,同時也引起長文本大模型(Long-LLM)細分賽道更加激烈的競争。
(圖源:阿裡 通義千問)
昨日,阿裡旗下的大模型工具通義千問宣布迎來重磅更新,向所有人開放最高 1000 萬字的長文本處理能力,更重要的是,這項更新完全免費。此項更新對于專業領網域的意義重大,例如金融、醫療、科研等從業人員,都能利用這項功能更快速地提取出核心關鍵詞,節省文檔歸整、資料整理的時間。
不僅是阿裡,百度文心一言也迎來了長文本處理能力的更新。據官方資料顯示,文心一言将在下個月開放免費的 200 萬 -500 萬字長文本處理功能,較此前最高 2.8 萬字的文檔處理能力提升上百倍。
此外,360 也在本月正式上線了 360 AI 搜索,通過大模型重塑,結合長文本技術在海量搜索結果中理解并生成精準的答案提供給用戶。而這款 APP,也同樣是完全免費的。
(圖源:TechTalks)
長文本一直以來都是大模型工具「内卷」的方向,如何在超百萬字的文檔裡做出有效的信息整理、觀點歸納,都是技術上的難點。當然,正如半導體行業與消費電子產品市場之間的關系一樣,很多消費者能感受到手機、電腦等產品性能正在飛躍式成長,但落實到實際體驗上,似乎沒有太多的變化。
而在生成式人工智能(GenAI)領網域裡,「卷」參數會是一個虛無缥缈的噱頭,還是造福人類的行為,還很難回答。
在弄清楚「卷」參數到底有何意義之前,我們首先需要了解 AI 企業們到底在「卷」什麼東西。
與衡量手機性能以跑分分數為準一樣,大模型也有屬于自己的「性能基準」—— token,這是一個大模型專用的輸入、輸出基本部門。在 OpenAI 給出的準則裡,1k token 等于 750 個英文單詞、500 個中文漢字。
(圖源:OpenAI)
同理,token 數字越大,能夠處理的内容篇幅就越長。ChatGPT-4 目前的參數量為 8k-32k token、Anthropic 公司推出的 Claude 為 100K token,而中國初創企業月之暗面推出的 Kimi Chat 則是達到了驚人的 400K token。具體到實例,Kimi Chat 能夠在 20 秒左右讀完 1 篇 20 萬字的長篇小說、通文千義也能在數秒時間裡讀完 80 萬字的《三體》。
(圖源:雷科技制圖 / 通義千問)
參數量劇增所帶來的好處自然是大模型對于更長的内容擁有更快速的理解能力,這能夠幫助用戶從中提煉到所需的摘要、信息點,又或是直接生成整篇内容的總結。語言大模型之所以能夠快速「引爆」整個市場,正是得益于這種速度驚人的理解能力。
(圖源:雷科技制圖 /Kimi Chat)
但要徹底攻克長文本,大模型光靠堆砌 token 參數量并不能完全解決這個問題。超大數量的 token 的确能夠快速閱讀完長文檔,但段落與段落間的内容也更容易出現「斷裂」的情況,這與缺少模型的預先訓練有關。目前擁有超大 token 的 AI 方案提供商,通常在 Transformer 預測詞之前投喂詞元模型,使整體結論更加完整。
(圖源:Code-Llama)
比如 Code-Llama,标稱 16K token 參數量,但實際上是由一個個 4K token 視窗連接而成,最終產生出 16k token 總模型。而這就十分考驗大模型工具在視窗之間的推理能力。試想一下,在專業領網域中,長文内容都有緊密的邏輯性與關聯性,假如大模型推理失誤,則有可能出現最終生成的摘要牛頭不對馬嘴,這對于大模型工具的商業、個人應用,都是致命的打擊。
當然,大模型的推理能力是可以通過訓練得到進步的,這就不難解釋為何阿裡、百度都選擇優先将長文本模型功能免費開放給個人用戶,畢竟更多用戶加入,模型推理能力的進化速度才能加快。
(圖源:百度 文心一言)
但免費應用也是一件好事情,長文本的快速閱讀一直以來也是用戶在大模型各項實際應用場景最關注的一項,比如正在寫畢業論文的學生黨,可能将超長的論文喂給大模型工具,讓其快速提煉、總結,甚至找出論文中的研究結論。
阿裡的通義千問将長文本檔能力的拓展方向瞄準在專業領網域的内容理解上,尤其是金融、醫學等,對于這些行業的從業人員而言,從前需要花上幾天或是十幾天才能讀完的文章,如今只需花上十幾秒就能看完其中的精華之處。
但大模型長文本的能力遠不止于此。
(圖源:育碧)
不久前,知名遊戲公司育碧公開的全新「NEO NPC」技術,正是 Long-LLM(長文本大模型)更新後衍生的新方向。眾所周知,3A 遊戲大作的靈魂往往與其精彩的劇本離不開關系,其中各式各樣的遊戲角色,也因其豐富的背景故事和鮮明的個性深受玩家喜好。大模型從 1k token 進化到 100k token,甚至是 400k token,能夠讓遊戲劇本完整地覆蓋到每個遊戲角色裡,讓他們的對話、行為,既符合遊戲的世界觀,又能保證一定的靈活性。
這項能力同樣可以應用在我們生活中最離不開的功能——搜索。
(圖源:雷科技制圖 /360AI 搜索)
本月初,360 在北京舉行了一場活動,旗下全新 360 AI 搜索和 360 AI 浏覽器率先亮相。360 AI 搜索的核心在于" 理解 "、" 提煉 "、" 總結 ",即抛開傳統搜素引擎将所有與之相關的内容為用戶一一呈現的做法,主動介入搜索結果,在數以萬計的匹配信息裡提煉出最有效的信息。
360 AI 浏覽器則是變成徹底的「AI 工具」。周鴻祎解釋道,360 AI 浏覽器的定位是學習、生產力工具,它能幫助用戶快速閱讀書籍、文章,了解視頻内容等。此外,360 AI 浏覽器未來還将擁有續寫功能,這同樣基于大模型長文檔的理解。
更重要的是,更長的文檔内容理解有助于加速 AI 快速過渡到 AGI(通用大模型)時代。正如前文所說,Long-LLM 較之前最大的變化在于對超長文本的理解、記憶、總結能力,這些能力可以是大模型更加「拟人」,即記住樣本的真實喜好從而判斷其行為,又或是根據真實世界的物理規則,生成完全符合實際的内容。
早在去年底,大模型長文本技術就已經進入到火熱階段,但卻鮮有 AI 企業将這項技術應用到大模型工具中,更别提免費向大眾開放了。
OpenAI CEO Altman 在接受公開訪問時也表示,由于算力不足,GPT-4 的 32K token 短期内無法向大眾開放。要知道,OpenAI 可是當前人工智能市場裡獲投資最高的頭部企業之一,連它都空有技術卻無法落地,不免讓人對 Long-LLM 的未來感到擔憂。
在算力不足的前提下有沒有辦法「投機取巧」呢?當然有。
目前主流節省算力的長文本技術通常有三種,分别是短文檔重復檢索、内容分組檢索和模型本身的優化。前兩種方案在技術原理上相對一致,都是将重復的内容進行「記憶」,節省理解時間,減少算力消耗;而模型本身的優化則要復雜許多,相當于用短文檔推導出長文檔,這非常考究模型本身的結構優化。
(圖源:英偉達)
不過,無論采用哪種方法,其精度仍有待加強,這就是為何我們仍在期待更強大的計算卡出現,比如前不久 GTC 2024 上,英偉達發布的最強計算顯卡 Blackwell GB200。關于這顆當前最強 AI 加速卡的詳細解析,雷科技在早前的文章裡已有報道,歡迎各位訂閱查看。
在當前,算力仍是阻礙 Long-LLM 成長的一大關鍵因素,但随着英偉達、英特爾等硬體供應商不斷加碼,這項技術在未來也将成為 AI 領網域發展的風向标之一。
如果說 OpenAI 的 Sora 展現出其在 AGI 時代關于視頻領網域上的想象,那麼 Long-LLM 則是奔向全場景通用智能的基樁。
大模型長文本技術能讓 AI 助手記住用戶的所有你與它談論過的話題,這讓你們之間能夠創造真實的回憶,而不是像從前一樣,在開始新對話之後,前面的「AI」就忘記了剛剛發生過的任何事情。這使得它能夠變成更好的 AI 智能客服,畢竟即便是真人,也難以記住與每位咨詢者發生過的對話。同樣的,Long-LLM 還能化身數字人主播、創造數字偶像等等。
或許,在大模型長文本技術的支持下,AGI 時代将在不久後真正到來。