今天小編分享的科技經驗:Perplexity推出了“深度檢索”免費版,實測怎麼樣,歡迎閱讀。
接入 DeepSeek R1 之後,Perplexity 總算在本職業務上有所更新了,推出了 "Deep Research" 深度研究。要知道在此之前,它比較大的動作是接入購物功能 ……
" 深度研究 " 是對标 OpenAI 的 Deep Research 的模式,主打深度檢索、專業輸出。在 Humanity's Last Exam 上獲得了 21.1% 的準确率,遠高于 Gemini Thinking、o3-mini、o1、DeepSeek-R1 和許多其他領先模型。這個測試包含 3,000 多個問題,涵蓋 100 多個學科,從數學和科學到歷史和文學,被視為人工智能系統的綜合基準。
新功能已經全量推送,注意:免費用戶每天只有五次試用。
指路:https://www.perplexity.ai/
既然說是 " 深度研究 ",那麼為了區别于以往的常規模式測試,我們在問題設計上有所調整,直接上難度,重點檢驗一下它是不是真的到了能出報告的地步。
基本面測試,更新了但沒完全升
這意味着問題艱深、資料保有量大、需要在輸出時體現報告邏輯——所有的提問都要滿足這樣的要求。
【引用權威性】:2023 年諾貝爾經濟學獎得主的主要理論貢獻是什麼?
這裡主要考察 Deep Research 的信息準确性、引用權威性。給定的範圍很明确了:2023 年、諾貝爾經濟學獎,對象基本是唯一的。
這一年的經濟學諾獎得主是克勞迪娅 · 戈爾丁,她的研究橫跨了美國 200 年間的數據,性别差異如何影響收入和就業率。
這是幾個世紀以來,女性收入和勞動力市場參與情況的首次全面概述,推進了對導致性别薪酬差距的因素以及女性在勞動力市場中的角色的理解,這對社會具有重要意義。
原本我很期待 Deep Research 能進一步展開講講:這個話題的資料保有量很大,足以制作一份詳盡的報告書。但實際上它就是這麼短短幾段,導出來的效果也不好。
對比了 DeepSeek R1(元寶版),雖然也總結了三點,但每一個點的闡釋都比 Perplexity 更完整。
【資料實時性】:對比美聯儲最近三次議息會議聲明的措辭變化
這裡主要考察抓取的資料時效性是否夠新。可以看到 Deep Research 給出的整理還是非常細致的。
題目解析的準确度是可以的,第二部分就給出了聯邦公開市場委員會聲明裡,各種措辭上的變化。
【音視頻理解能力】:解析 NASA 最新發布的黑洞合并模拟視頻中的物理原理
這是 NASA 發布的一個制作很美,但注解很少的視頻。不到兩分鍾的視頻,通過動态影像展示了黑洞合并,但幾乎沒有任何文字。
這裡考察的就是 Deep Research 對音視頻模态材料的理解能力,解答針對性地解釋了視頻中的影像呈現,比如 " 該模拟将引力波以彩色場的形式可視化 "" 合并的黑洞上方形成類似漏鬥的結構 ",看來是有一定讀圖能力的。
對比了一下,雖然調取了視頻,但具體解答中,應該還是參考了 NASA 給出的視頻介紹。可以理解吧,畢竟是這麼專業的内容。
不過在時效性方面,有點摻在了一起。右側給出的視頻既有去年的,也有 8 年前的,屬實不能算 " 最新 "。這點應該要能更清晰的标注出來。
推理 + 調研,攻克復雜提問
内容準确性、時效性這些都是基礎要求,任何一個 AI 搜索都應該具備。更進階的,是能不能整合資料,哪怕提問是模糊的,輸出時依然完整、清晰。
【邏輯完整性】:推導從發現石墨烯超導特性到商業應用的技術路徑
這裡考察的是邏輯鏈條,是否清晰有道理、是否邏輯完整。重點在 " 從發現 " 到 " 商業應用 ",兩邊都應該有所涉及。
Deep Research 通過在這兩個題眼中間,擴展了 " 理解機制 " 和 " 材料學進展 ",把回答串起來。
先是介紹了在 2018 年時,麻省理工科研人員發現的石墨烯超導現象。然後解釋了為什麼這種超導性有價值、它的簡單原理是什麼。基于這種原理,科研人員探索了有什麼樣的使用價值,最後就是更商業的應用。
雖然每一個部分都不長,但是不僅理解了問題,基于提問建設了一個解答邏輯,而且是完滿、順暢的。
【模糊問題處理】:如何評估發展中國家建設數據中心的速度?
這個問題考察對于模糊需求的理解。" 發展中國家 " 是個範圍很大的主語。而且,數據中心建設的資料未必齊全,不好查詢。
這個任務中,能看到 Deep Research 在信息來源的權重上有所挑選,把來自信通院、商務部的研究報告放在了前面。
這樣一來,内容的權威性是有所保證,但是給出的解答有點流于表面。整個解答看着跟普通模式區别不是很大
從内容上來講,不論是準确性、時效性、權重配比,都沒有大問題,"research" 的工作還是完成了的。
但是夠不夠 " 深度 ",就見仁見智了。平心而論,這幾個問題下來,沒有哪次的輸出是真的撐得起一份報告的,起碼沒有到它官方宣傳的那樣(下圖右)。
即便有導出 pdf 的功能,也更像是走個過場,互動上還不如秘塔。
" 調研 " 是一個需要兼顧形式和内容的場景。正如前面講到的,内容的準确性、權威性,已經是 AI 搜索的基本操作。想要立住 " 報告 " 這個形式,不僅是對資料保有量提出要求,更加是對 " 怎麼組織資料 " 有要求。
同樣的材料,可以壓縮到中學生作文般的 800 字,也可以拉伸成 8000 字的開題報告。這中間的差異,正是對資料的組織。
Perplexity 對這個方向有所想象了,但同一時間,所有的對家都有所想象了。前有 OpenAI,後有 Grok 3,連名字都是大差不差的 Deep ( Re ) search。這的确是一個大有可為的場景,但很顯然,也是一個競争非常激烈的場景。