今天小編分享的科學經驗:實測免費DeepResearch!輕量版深夜上線,基于o4-mini,速度更快/重視脈絡梳理,歡迎閲讀。
終于,免費用户也能用上 OpenAI 的 DeepResearch 了,量子位也進行了新鮮實測!
OpenAI 深夜官宣,基于 o4-mini 某個版本的輕量版 DeepResearch 正式上線。
按照官方説法,輕量版的回答會更短,但智能水平将幾乎無異于滿血版本。
與此同時,輕量版的上線也意味着付費用户可以有更多的使用次數。
具體來説,付費用户的滿血版用量不變,但每月可以獲得額外的輕量版使用機會,在滿血額度用完後會自動切換。
那麼,兩個版本表現究竟有何異同,來看量子位實測 ~
我們一共找了 10 個話題讓 ChatGPT 進行深度研究,首先一并展示下用時、資料數量等能夠直接統計的數據。
整體來看,輕量版的用時和生成内容字數都明顯要比滿血版更少,至于參考資料數量則沒有明顯規律。
接下來,我們選擇其中三個,仔細對比一下滿血版和輕量版形成的報告質量:
印歐語系語言的演變歷史
2024 年 AI 穿戴市場發展情況
推理大模型中的關鍵技術
無論是哪個版本,在我們提出研究話題時,都會詢問研究的具體内容、側重點等信息。
話題 1:印歐語系語言的演變歷史
以第一個話題 " 印歐語系語言的演變歷史 " 為例,滿血版和輕量版在問題細化方面詢問的思路基本一致(下圖中上方為滿血版,下方為輕量版):
我們回復 " 整體梳理,從古至今 "。
然後模型便會開始規劃檢索,關于這個話題,兩個版本引用的資料都是主要來自維基百科和大英百科全書,而滿血版還多引用了部分中文資源(僅限于當前話題,其他話題中輕量版也會引用非英語資源)。
(下圖中左側為滿血版,右側為輕量版)
通過二級标題來看最終報告的結構,滿血版采用了總 - 分 - 總的結構,并将印歐語系下屬各個語族分别作為一個部分進行了詳細介紹。
而輕量版的結構更加注重整體,每一部分都是分别從不同角度在講述演變的過程。(下圖中左側為滿血版,右側為輕量版)
滿血版的報告當中,每一個下屬語族的介紹都非常詳細。
輕量版則更側重于展示脈絡,将演變的大致過程做了簡要介紹,詳細程度則比不上滿血版本。
話題 2:2024 年 AI 穿戴市場發展情況
前面一個問題主要是讓模型在時間維度上進行信息梳理,接下來的這個話題則圍繞空間維度進行展開。
問題細化的過程是這樣,兩個版本區别不大(圖中還是上面滿血下面輕量版),我們則是直接這些内容全都要。
中間過程就不多贅述,兩個版本從結構上依然是大致相似(左滿血右輕量)。
市場規模的部分,滿血版分為了全球、國内和增長趨勢三個部分進行介紹,包含了大量具體數據和部分原因簡析,之後的增長趨勢還根據產品的具體類型進行了細分。
并且還根據 IDC 的數據繪制出了表格:
相比之下,輕量版也覆蓋了其中的一部分要點并同樣是全球 - 國内 - 趨勢這樣的結構,但每部分都只用一兩句話帶過。
至于表格,則是沒有的。
不過到了廠商部分,又變成了輕量版(下圖右側)的展示更加條理清晰。
後面的内容就不一一拆解了,整體來看,無論是從時間還是空間維度上梳理,滿血版都比輕量版多了大量的細節(下圖為滿血版)。
話題 3:推理大模型中的關鍵技術
第三個話題關于推理大模型中的關鍵技術,這次兩個版本問出的細化問題稍有不同。
我們回復重點關注模型架構、訓練算法和推理優化這三部分的信息。
對于模型架構的部分,輕量版(下圖右側)做出了表格整理,而滿血版抽成了三個段進行文字叙述。
算法部分,輕量版提到了 SFT、RLHF、對比學習與自監督等内容,而滿血版則抽成了指令微調與多任務訓練、鏈式思維訓練與過程監督、反事實訓練與自我監督機制這三個部分。
最後關于推理優化,輕量版提及了量化、蒸餾、剪枝、KV 緩存優化等技術,滿血版在此之外還提到了自适應推理、并行解碼等内容。
總得來看,如果比較詳細程度,滿血版是當之無愧的獲勝者。
但如果只是用來幫助我們确定大概的研究思路和可能涉獵的内容,輕量版,也足以解決一部分需求。
甚至對于不喜歡長篇大論的用户來説,輕量版看上去會更加簡潔。
關鍵是,免費用户也能用啊。
參考鏈接:
https://x.com/OpenAI/status/1915505961500070245
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星标
科技前沿進展每日見