今天小編分享的互聯網經驗:智譜AI CEO張鵬:擔心Scaling Law碰到天花板,為時過早,歡迎閲讀。
環境持續變化,時代總在迭變," 商業之王 " 們緊随時代浪潮,堅持創造,謀求新動能。立足中國經濟大轉型的當下,WISE2024 商業之王大會,一同發現真正有韌性的 " 商業之王 ",探尋中國商業浪潮裏 " 正确的事 "。
11 月 28-29 日,為期兩日的 36 氪 WISE2024 商業之王大會于北京隆重召開,作為中國商業領網域的全明星盛典,WISE 大會今年已經是第十二屆,在不斷變化的時代裏見證着中國商業的韌性與潛力。
2024,是有些模糊且變化多于穩定的一年。相比過去十年,大家的腳步正放緩,發展更加理性。2024,也是尋求新的經濟動力的一年,新的產業變化對每個主體的适應性提出了更高的要求。今年 WISE 大會以 Hard But Right Thing(正确的事)為主題,在 2024,什麼是正确的事,成為我們更想交流的話題。
在上午的 WISE 會場上,智譜 CEO 張鵬對近期的 AI 熱議話題,以及 AI 發展階段做了一次題為《GLM 大模型與通用人工智能》的分享。
智譜 AI 是國内大模型明星初創。早在 OpenAI 的 ChatGPT 推出之前,國内還沒有多少人深入大模型領網域之時,智譜 AI 就已經開展了大模型的探索。
GLM 大模型作為通用人工智能的重要基石,不僅融合了深度學習的強大算力與泛化能力,更在語義理解、知識推理等方面展現出卓越的性能。
在演講中,張鵬不僅回顧了人工智能領網域發展的經典曲線,并且也對近期大模型領網域 Scaling Law 碰壁、大模型研發進度延緩等熱門話題,進行了闡釋。
張鵬表示,但本質上,從研究、技術角度來看,這一代大模型并不像上一代的人工智能技術。随着語言能力的大幅提升,大模型在包括視覺、聽覺等其他模态上,還有長足的發展空間。
" 大量研究人員在做新的突破,每一次新的突破都會帶來一些新的機會,我們擔心碰到天花板或者碰到南牆,這個事情确實是有一點過早。" 張鵬説。
此外,張鵬也提出了 AI 的五個發展階段,包括語言能力、邏輯思維能力、工具調用能力、自我學習能力等。
張鵬
以下是張鵬的演講實錄:
張鵬:大家中午好!已經過了 12 點了,在外面很冷的情況下館裏面還熱火朝天,現在還在這兒聽我講的應該是真愛。
今天我在來的路上在想應該跟大家聊什麼事情,我們的市場部要求比較早做出來,交給我們的主辦方,可能裏面的内容還是我們之前準備的一些東西。
最近兩天大家也在讨論一些新的東西,包括 Scaling Law 是不是已經碰到天花板,大模型這個事情是不是還會走下去,有很多的看法,我也不斷被大家來問這樣的問題。所以我也不一定會按照這個裏面的所有内容來講,還是跟大家講一講我們最近的思考。
這是今年年中發布的關于人工智能曲線,可以看到這上面有很多跟人工智能,跟大語言模型相關的詞匯,這些詞處在裏面不同的位置上,也代表着公眾對于這件事的關注度。我個人理解,現在已經越來越像輿論,媒體熱度的曲線,而不是真正技術引領上的曲線了。
大家可以看到,裏面有很多的新的東西,包括具身智能、智能體等等的技術,仍然處在非常快速上升的曲線上。所以,從這一波人工智能發展的角度來看,當下還是處在非常快速上升的階段。
所以,大家因為 Scaling Law 撞牆,就擔心整個行業會突然進入谷底期,這個擔心可能有點多餘。就像我們擔心人工智能會統治人類一樣,還有點太早,不妨讓子彈飛一會兒。
在非常狹窄的意義上來説,Scaling Law 确實遇到了一些挑戰。可以看這條曲線,在語言能力上,單單從語言能力上來看,大模型确實已經類似到了上一代人工智能遇到的天花板問題:所有的能力已經接近了人類的極限、人類專家可以評價的極限。
大家可以回想一下,上一代人工智能之所以進入發展瓶頸期,就是因為這個,我們人類已經沒有辦法教 AI 如何來突破了。我們人類的天花板在那兒擺着,所有數據,喂給 AI 的數據都是來自人類。是不是能突破這個天花板?這可能是現在大家要想的問題。
這是從語言模型的角度來看。但本質上,從研究、技術角度來看,它不像上一代的人工智能技術。
上一代人工智能技術底層的神經網絡、卷積神經網絡等等,現在看起來還比較簡單,基本上大家已經非常快速收斂,并且趨于穩定了。
但是預訓練模型或者大訓練模型底層的研究,仍然在非常快速地迭代,還有大量空白的空間,大量研究人員在做新的突破,每一次新的突破都會帶來一些新的機會,我們擔心碰到天花板或者碰到南牆,這個事情确實是有一點過早。
我們剛才説的是語言模型,語言模型确實碰到了很現實的問題,數據好像都喂進去了,智能提升速度已經有一些放緩。但是除了語言之外,還有很多的事情,比如説視覺、聽覺,這些空間還非常非常的大。
比如,視覺理解還有大量的問題需要去研究。對于人眼所看到的復雜情景,現在的模型還不能很好地全面地類比,跟人類的差距還是非常非常明顯,這裏面我們還有很多事情要做。
我們最近也在這方面花了很多的力氣做這樣的事情,讓我們的視覺理解的能力跟硬體、端側的設備結合,讓端側設備具備更強的理解能力。因為我們現實世界很多的任務,都是要結合不同模态信息的輸入,包括語言、視覺、聽覺。
總結起來看,我們可以看這一張圖。我們把人工智能發展的階段、進步的階梯分為五個層次,其實 OpenAI 也有類似的分法。
在我們的理解裏面,前三級跟 OpenAI 非常類似。首先,最簡單的、最重要的是語言能力,以及其他模态,我們統稱為多模态能力——視覺、聽覺還有大量的空間。
第二層,邏輯思維能力,也是最近大家熱議的 OpenAI 的 o1。我們國内也有很多的團隊在做強推理能力,復雜問題解決能力的模型,也在持續往前演進。邏輯推理能力上,我們大概能走到接近 60% 的人類水平。
再往上,我們怎麼讓大模型,AI 長出手腳,使用各種各樣豐富的工具,產生更大的生產力,也就是工具調用的能力,也是最近熱議的一件事。
我們最近也有小小的突破,讓 agent 幫助人操作手機上的 APP,PC 上的應用,解決一些重復性的、過程性的工作。
再往上,可能(和 OpenAI)略微有一些差異,我們認為四五兩級分别是 AI 的自我學習能力。
人的能力、人的智能之所以能持續不斷的更新迭代,在于人是有自我學習能力的。人可以在不斷的實踐,反饋當中不斷的提升自己,創造新的數據、經驗、智能、工具,這些能力才是人類往前得以突進,創造新事物的核心能力。
我們希望 AI 能夠具備更強的自我學習能力,這樣才有可能像人一樣去突破現有的天花板,創造新的東西,未來利用這種能力去探索、研究、尋找科學的新邊界。
我們最近做的一件事,包括在多模态能力上研究如何把視覺、聽覺能力,聲音的能力融合起來,加上非常強大的語言理解能力,去解決現實當中的一些問題。
OpenAI 對于人工智能發展的分級發展脈絡,叫通用人工智能之路,大家可以看到清晰的演進路線。大語言模型到多模态,到工具的使用,到自學習,我們可以看到整個路徑是非常清晰的。
為什麼會這樣?語言是基礎,人類本身的大腦智能就是多模态的,再使用工具連接物理世界,最終實現自我學習。
我們跟腦科學研究的專家、神經科學專家等等跨學科的專家一起來做了一些探讨。現在人工智能技術的演進,已經觸及到通用人工智能的一些方面。
人類的大腦分區塊,多樣化,這是現代腦科學證實的事情,包括語言能力、邏輯推理能力、視覺能力、觸覺能力、運動能力等等。彩色部分,其實是現在 AI 或者大模型已經觸及到的部分,灰色的部分,是我們暫時還沒有觸及或者相對比較少的部分,包括手腳這種使用外部工具的能力。就跟剛才我們畫的階梯狀圖一樣,在自然語言的理解和使用這方面,已經接近人類最好的上限。
在邏輯推理、情感、創新方面、工具使用方面,我們也有一定的突破,但是仍然還有一些地方仍有大量的空白,所以下一代的 Scaling law 到底是什麼?我們可能在這些空白區網域,或者説發展得還沒有那麼完善的區網域,去找到更多的 Scaling law 發揮效果的地方。
在這個過程裏,我們可以發現,智譜的發展路徑其實是在對标 OpenAI。對标 OpenAI,在于我們的理念非常相似。我們認為,人類智能或者通用人工智能一定不是單向能力上限的突破。
大家想一想,上一代人工智能,不管是 NLP(自然語言處理)還是計算機視覺,單向能力上限突破最終結局是什麼?仍然是工具型的成果,無法解決現實生活當中、我們期待解決的通用性問題,只能利用大數據解決小任務。
這一代生成式人工智能或者大模型能夠解決的問題,恰恰是另外的問題,我用大數據、小任務,簡單的任務進行訓練,去解決更多的問題,這才是這一代生成式人工智能要解決的核心問題。
但是要解決多樣化問題,一定是多項目能力的組合。很難想象大家在日常工作的任務當中,或者説跟社交的生活當中,只使用一種感知能力,僅僅只使用一種感知能力,這是很難想象的事情。
解決現實生活、工作當中的問題,一定是多項能力的組合,這也是為什麼我們做各種類型的,不同模态各種能力的全面組合。
我們 8 月份新發布的新一代模型,是包含了各種能力組合的產品矩陣,從文本能力開始作為最好的底座,上面結合視覺、語言、代碼能力,我們讓它能夠具備全面的、通用化的能力,來面對通用化的任務。
8 月,我們也接受了業界、學術界、公眾公開的評測和檢查檢驗,效果還是非常不錯的。四代的模型跟國際上第一梯隊模型打得有勝有負,這是我們很欣慰看到的事情。
在這個基礎之上,還會有更新的能力,比如視頻生成的能力,我們做了全新更新,有更高的碼率,每秒 60 祯視頻生成,更高的 4K 清晰度,更逼真的畫面,并且還可以結合我們的聲音能力,為視頻自動的進行配音。
大家知道,電影從默片到有聲電影的進步,是電影史上非常重要的跨越,視頻的生成從完全無聲畫面,到能夠同時生成配音,也是巨大的進步,表示着我們再一步向物理世界的理解和生成邁進一步。
我們不僅能夠生成更高清晰度的視頻,而且視頻比例,更高的生成速度,多通道同時生成多個視頻,這樣大家可以效率更高一些。
這是 AutoGLM,讓大家體驗用語言、語音操縱手機的能力,相信關注我們的朋友,最近也看過這樣的視頻介紹,體驗過我們相應產品的内測。
我們這個產品發布以後,收到了廣泛的關注,過程當中确實有很多的反饋給到我們,雖然還是比較早期的嘗試。經過這一個月的測試和反饋,我們努力讓這個產品繼續迭代,大家如果感興趣的話可以持續關注,我們還會有新的更新,開放給大家。
時間原因,給我的時間比較少,這個視頻我們就不再放完了,大家感興趣可以自己體驗一下。
通過強化學習的路徑,我們使得大模型像人的大腦一樣,使用工具的成功率大大得到了提高,我們認為由原來通用任務上可能只有 20% 左右的成功率,翻了 1 倍,接近 40% 的準确率。
未來,希望借助與我們全面模型的能力,多模态、跨模态,以及通用的 AI Agent 能力連接大模型大腦,和更多智能化設備,讓 AI 能力更快落地,走入物理顯示的世界,有着人機互動的新體驗。
我感覺這個時代已經正在到來,智譜在這個過程當中,也秉持雙輪驅動理念,不斷在技術上進行突破,同時也不忘把我們技術轉化成更新的產品,在市場上給大家創造更多的客户價值。
我的分享就到這裏,謝謝大家!