今天小編分享的科學經驗:三個大模型組隊挑戰o1,實測360多模型協作幹掉提示詞工程,歡迎閱讀。
OpenAI o1 的橫空出世,開啟了大模型演化的新範式——Inference law(推理定律)。
正如英偉達 AI 科學家Jim Fan所說,o1 的出現标志着大模型研發者開始把集中在訓練階段的投入,開始轉移到了推理過程。
Jim 還引用了機器學習先驅Rich Sutton的經典文章《苦澀的教訓》中的話說,只有兩種技術可以讓(AI)計算的潛能無限擴展——學習和搜索。
而現在,是時候把目光聚焦在後者了。
在推理側投入更多資源,模型也就有了更完備的思考過程,投入的增加換來的是質的提升。
在國内,360 創始人周鴻祎的理念與之不謀而合,而且 360 更早就提出了 " 慢思考 " 的理念,并在技術架構和產品中都付諸了應用。
同時,360 還在其 AI 產品中強調多模合作,讓來自不同廠商的大模型 " 抱團取暖 ",為國内模型追趕 OpenAI,找到了一條可行的道路。
從 o1 看大模型 " 慢思考 "
雖然 o1 的具體思考過程始終是 OpenAI 的至高機密,但可以肯定的是,思維鏈(Chain of Thought, CoT)在其中扮演了重要角色。
OpenAI 在關于 o1 的報告中表示,思維鏈能讓模型學會認識并糾正錯誤,學會将棘手的步驟分解為更簡單的步驟,甚至學會嘗試不同方法,極大地提高了模型的推理能力。
今年的 AI 頂會 ICLR 上,谷歌大腦推理團隊創建者Denny Zhou,清華姚班校友、斯坦福助理教授、斯隆獎得主馬騰宇等人的一篇論文,更是揭開了思維鏈的無限潛能。
透過現象看本質,從某種程度上看,思維鏈的本質就是 2002 年諾貝爾經濟學獎得主卡尼曼在《思考快與慢》中提出的 " 系統 2",也就是" 慢思考 " 系統。
所謂 " 系統 2" 或 " 慢思考 ",是指復雜、有意識的推理,與之相對的是 " 系統 1" 或 " 快思考 ",即簡單無意識的直覺。
而 o1 的表現證明,這種适用于人類的 " 慢思考 " 理念,對大模型來說同樣适用。
但應當注意的是,這兩種系統在人腦中是同時存在、相互配合的,在大模型當中也不應被割裂開來。
周鴻祎認為,o1 遵循的可能就是 "雙系統理論(Dual Process Theory)",其核心在于快慢兩種系統的協同運作。
作為 " 百模大戰 " 的選手,周鴻祎和 360,也是 " 慢思考 " 以及 " 多系統協同 " 的思考者和先行者。
7 月底的 ISC.AI 大會上,周鴻祎就宣布,要 " 打造慢思考系統,從而增強大模型的慢思考能力 "。
基于 " 多系統協同 " 機制,360 利用多個模型組成的智能體框架,實現了大模型從 " 快思考 " 到 " 慢思考 " 的轉變,并打造出了兩款明星 AI 產品——360AI 搜索和360AI 浏覽器。
讓不同大模型 " 抱團取暖 "
360AI 搜索一共有簡潔回答、标準回答和深入回答三種模式,其中一次深入回答會可能就要涉及7-15 次的大模型調用。
比如可能會涉及 1 次意圖識别模型調用,1 次搜索詞改寫模型調用,5 次搜索調用,1 次網頁排序調用,1 次生成主回答調用,1 次生成追問調用……
在多個模型的協同配合下,360AI 搜索形成了這樣的工作鏈路:
首先利用意圖分類模型,對用戶的問題進行意圖識别;
接着用任務路由模型對問題進行拆解,不同的問題可以劃抽成 " 簡單任務 "、" 多步任務 " 和 " 復雜任務 ",對多個模型進行調度;
最後構建 AI 工作流,使多個大模型協同運作。
比如面對一道古詩詞中譯英題目,路由模塊就會調用起翻譯、反思等多個模型,讓這些模型分工配合、共同完成任務。
而且最新版本還在生成答案過程中進一步加強了多模型協作,将其作為了一種獨立的回答模式。
三個不同模型分别扮演生成初步答案的專家、檢查回答的反思者和最終給出答案的總結者。
例如在這個案例中,作為專家的Kimi提到了問題的關鍵,但表述不夠鮮明,在反思模型360 智腦的建議下,豆包進行了重新總結,形成了直擊問題的解答。
這樣的工作模式不僅将快慢思考協同和反思機制引入了 AI 應用,更通過不同模型的交叉驗證,進一步提高了整體表現。
在另一款 AI 產品—— 360AI 浏覽器當中,16 家廠商的 54 款大模型也已齊聚一堂,可以實現多種傳統浏覽器所不具備的能力。
AI 浏覽器可以10 秒鍾總結上萬字英文學術論文,針對其中的細節也可以盡情發問。
可以沉浸式翻譯 pdf 文檔,原文和譯文同步滾動、随時對照。
還能化身 "AI 省流俠 ",分分鍾幫忙總結在線視頻内容并劃出重點,還能根據視頻架構繪制腦圖,甚至分析創作風格……
不僅在線文檔和視頻可以解析,這一系列分析功能,對于本地檔案也同樣适用。
更為方便的是,360AI 浏覽器還有移動端版本,在手機上也能随時利用 AI 輔助上網衝浪。
已經入駐 360AI 浏覽器、同樣基于 CoE 架構的AI 助手(bot.360.com),則可根據任務類型和模型特長自動調度最合适的大模型。
無需切換平台,就能直接對話 54 款大模型,或者對話更加強大混合大模型,想選哪個就選哪個。
AI 助手同樣支持「多模型協作」,用戶可以從 54 款模型中任選 3 款,分别做專家、反思者和總結者。
未來,360 還會推出由五個甚至更多模型協作完成任務的版本。
還是在 360AI 浏覽器中,AI 助手還上線了" 模型競技場 " (bot.360.com),支持 54 款大模型產品的 " 同台競技 ",最新版本中還上線了 " 組隊較量 "、" 匿名比拼 "、" 随機對戰 " 等功能。
總的來說,360AI 搜索還是 360AI 浏覽器雖然側重點有所不同,但背後體現的還是那個核心理念——
在進行 " 慢思考 " 的同時,不卷單一模型的能力,而是讓模型 " 抱團取暖 ",博采眾長,形成 " 眾人拾柴火焰高 " 的局面。
當然,這樣做的意義,也不僅僅是為用戶帶來了更好的 AI 體驗,對各大模型的開發者而言同樣是一種激勵。
我們知道,大模型研發投入巨大,唯有足夠多的用戶才能夠收回成本。
而依托 360AI 搜索、浏覽器、安全衛士等入口,360 将能夠觸達 10 億用戶的入口開放給了大模型開發者。
這也是阿裡、騰訊、百度等大廠,以及大模型六小虎紛紛加入 360AI 架構的重要原因。
所以,360 與這十多家廠商雙向奔赴,實現了模型與 AI 應用相互促進、彼此發展的良性循環。
模型競技場更是給國產大模型提供了一個在競争中學習的平台,以及獲得用戶評價的絕佳機會,塑造了更加積極進取的氛圍。
" 消滅 "Prompt 工程
從技術層面上看,在理念與產品之間架起橋梁的,是 360 獨創的 CoE(Collaboration-of-Experts,專家協同)架構。
CoE 架構集合了數量更多的大模型和專家模型,通過思維鏈和 " 多系統協同 " 的方式實現了 " 快思考 " 和 " 慢思考 " 的有機結合。
在思路上,CoE 與 o1 選擇了相近的路線,但是在深度上走得更遠——
o1 無論再怎麼融合,也無外乎是 OpenAI 的自家模型,CoE 卻是海納百川,集合了數量更多的大模型和專家模型。
△CoE 架構原理圖
而且,CoE 架構中還接入了很多十億甚至更小參數的專家模型,使得整個系統更加智能,在獲得高質量回答的同時,節約推理資源、提升響應速度。
早在 CoE 架構剛發布的時候,基于 CoE 集各家所長的混合大模型能力就超過了(當時最強的)GPT-4o。
該混合大模型在翻譯、寫作等 12 項指标的測試中取得了 80.49 分的綜合成績,超越了 GPT-4o 的 69.22 分;而且除了代碼以外,其餘 11 項指标均優于 GPT-4o。
而且 CoE 架構對所有模型都敞開懷抱,比 OpenAI 在開放協作的道路上走的更遠……
另外,無論是 OpenAI 的 o1,還是 360 的 CoE,都将讓大模型的發展走向一個新的趨勢——
復雜的人工環節将實現自動化,具體到大模型當中,就是" 消滅 "Prompt 工程。
乍一看有些反直覺,因為在我們使用大模型時,提示詞的好壞對生成内容有着決定性的影響,其重要性不言而喻。
但仔細想想又并不矛盾——大模型等 AI 應用,歸根結底是要為了人類而服務;
而提示工程卻是讓人類去适應模型的工作方式,簡直 " 倒反天罡 "。
所以,提示工程固然重要,但不該成為普通用戶使用大模型的 " 絆腳石 "。
解決的思路就是将提示詞的設計工作,像其他任務一樣,作為思維鏈中的一環,交給大模型來做。
這樣的模式下,提示工程的靈魂依然被保留,但在用戶的視野當中逐漸淡化,形成一種 " 消亡 " 的感觀。
這種模式背後所反映的,也是 360 對 AI 未來發展的一點期許——
實現 AI 向着更多人的普惠,讓大模型不再 " 高居廟堂 ",而是成為萬家燈火。
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>