今天小編分享的互聯網經驗:周鴻祎:Sora的問世給行業警醒,中美在 AI 領網域有巨大差距,歡迎閱讀。
钛媒體 App 獲悉,全國政協委員、360 集團創始人周鴻祎在 2 月 23 日的一場活動中重點回應外界聚焦的 AI(人工智能)焦點話題。
周鴻祎表示,和美國相比,中國在 AI 技術上存在差距是客觀事實。
" 我說中美有差距,我一直堅持這麼說,看到差距才知道怎麼去迎頭趕上,如果你都不承認差距,我們早就遙遙領先。我們領先的都很過分了。在刷榜的成績裡,國產大模型基本壟斷了 Top1 到 Top10,GPT-4 都被刷到 10 名開外去了。但是 Sora 的問世還是給了我們一桶清醒的冷水。" 周鴻祎稱。
不過,周鴻祎也提到,中美在 AI 上的差距主要體現在方向上,一旦方向正确,國内公司馬上就會迎頭趕上。無論是 Sora 采用的 Transformer 模型,還是 Sora 本身,本質都是軟體," 現在的落後,我覺得大概一到兩年就能解決。"
談及最近深陷争議的 "AI 帶課網紅 " 李一舟,在周鴻祎看來,人們确實需要 AI 科普教育," 他犯了一個很大錯誤,就是不該收費。" 周鴻祎透露,自己将在不久後推出免費的 AI 課程,希望能用最粗淺的語言解釋最高深的技術,為大家做好 AI 科普。他具體在 2 月 29 日公布相關事宜。
"AI 科普很關鍵,大家雖然都在談 AI,實際對 AI 充滿恐懼,認為 AI 會帶來大規模失業,實際上,AI 是人類最好的朋友。" 周鴻祎談到,目前整個大模型賽道還沒開始掙錢,現在唯一能賺錢的就是 " 英偉達 ",除此之外微軟、OpenAI 都是在賠錢。
" 按照颠覆式創新的思路,一個颠覆式創新的東西出來并不是完美的,它有很大的缺點,它最大的價值是降低了使用的門檻。" 周鴻祎預測,大模型未來的紅利期至少還有十年。
周鴻祎強調,AI 大模型絕對是一場工業級别的革命。" 這才剛剛開始,如果每個人都賺了很多錢了,就跟今天互聯網公司很賺錢一樣,這個行業就會‘成熟’了。"
以下是周鴻祎此次回應關于 AI 的部分内容整理:
問:請問您是如何看待 Sora 的?它對行業的影響會有多大?是否還會出現類似于之前百模大戰的競争格局,您是怎麼看的?
周鴻祎(以下簡稱周總):Sora 的技術原理國外讨論的也非常多。像今天 stable diffusion 發了一個類似架構開源的東西。我經常講,人家一開源,我們科技就進步。所以,再往下,國内可能在原始創新從零到一做的弱一點,但一旦 OpenAI 宣布了技術方向,宣布了產品,我認為國内的模仿很快會跟上。所以,肯定又有很多家,做出類似的文生視頻類似的工具,我覺得會出現你說的百模大戰的這種情況。
問:最近關于 AI 培訓這塊的輿論和争議比較大,不知道您怎麼看?您覺得這個行業如何規範?
周總:有兩點我是肯定的。
第一,AI 的科普在中國變得非常關鍵。因為我接觸很多人,大家雖然在談 AI,實際上大家對 AI 是有恐懼的,這種恐懼被網上一些号給帶節奏,覺得 AI 會導致大規模失業,AI 會帶來行業的崩潰。你去用一用 AI 就知道說,AI 是人類有史以來發明的人類最好的朋友,也是最好的工具,它可以讓我們很多人解鎖技能,可以讓我們變得。比如我過去不會畫畫的,或者我過去不可能去做導演拍視頻的,我可以解鎖這個能力。所以,特别對年輕人來講,AI 更是讓你從一個資歷非常淺的人,馬上可以跟那些有經驗的人站在同一個起跑線上。
第二,我一直認為,AI 并不會帶來行業的崩潰,或者是讓哪個行業(被)颠覆掉,它實際上會給這個行業,比如對短視頻行業、影視工業、廣告業帶來正向的推動,只有那些不用 AI 的人會被用 AI 的人淘汰。
但是很多人說,你講這些道理沒有用,現在網上只要立個攝像頭,裝模作樣的在攝像頭前面講一番話包括我本人也是,就會有很多人信以為真,大家也确認不了誰講的是對的,誰講的是錯的,所以,我認為最重要的是,AI 一定要自己去用,一定要去縮小。包括我跟很多企業的老板也講,企業裡面為什麼要通過一個含 AI 量的概念。企業裡面從上到下,從内到外都要去用 AI 的東西,用了才知道它的長短在哪裡,它的邊界在哪裡,它的優點是什麼,它的不足是什麼,避免 AI 恐懼症或者 AI 萬能論,這兩個論點都是不對的。
大家用了 AI 之後,對 AI 有一個科普,才能更好的知道怎樣去擁抱 AI。所以,我覺得搞 AI 科普教育是對的。
大家需要科普教育,所以我認為 AI 的科普教育是非常重要的,但我認為他犯了兩個錯誤:第一:他應該免費;二、還有他背後沒有自己 AI 的產品,好像是把很多國外的產品做了套殼,這個我就不評價了,這樣做肯定是有問題的。
所以,我最近在思考,我準備開一個免費的 AI 課,大家覺得我講課行嗎?但是我肯定不敢收費了。
問:我們想讓您多解釋一下,我們該如何理解這樣的差距,或者差距加大背後的核心原因是什麼?
周總:第一,我說中美有差距,我一直堅持這麼說,看到差距才知道怎麼去迎頭趕上,如果你都不承認差距,我們早就遙遙領先,我們領先的都很過分了,你要天天這麼覺得,不是有的公司曾經準确的預言什麼時候超過 GPT4。大家做個大模型就去刷榜,刷榜的遊戲你們都知道,把那個考題預先訓一遍。當然在刷榜的成績裡,國產大模型基本可以壟斷 Top1 到 Top10,GPT4 都被刷到 10 名開外去了,但是,Sora 的問世還是給了我們一桶清醒的冷水,讓人看看還是有點差距。
第二,我覺得 GPT 手裡有些秘密武器沒有亮出來。在去年 OpenAI" 宮鬥 " 的時候他們就争論了半天,現在 GPT5 已經在蓄勢待發了,GPT-5 發沒發的問題完全取決于奧特曼的心情和他的節奏感。奧特曼什麼時候發呢?當 Google 要做什麼事情的時候,或者當 META 要做什麼事情的時候他就會發一個東西。所以,考慮到他們對 AGI 的信心,我認為在人工智能的原創方面上,我們跟他們的差距主要在原創方向上。
大家知道,搞技術最難的是找到原創方向。原來人工智能、深度學習、神經網絡,我稍微感慨一點,你們愛聽不聽。包括 META 的楊立昆 ( Yann LeCun)在拼命攻擊 Sora、攻擊 GPT、攻擊 Transformer 模型。
其實,Transformer 模型不是 OpenAI 發明的,但是 OpenAI 是第一個選擇了一種新的用法,就是在裡面無限地加參數的大小,加注意力的連接數目,加神經網絡的層數,也就是說他們相信一種叫做暴力美學,就是只要是大力出奇迹,所以,很多的跟 Transformer 當時一起競争的模型,像 T5、BERT,大家在小數據、小參數情況下的性能能力,Transformer 都不是最好的,但是只要加大參數之後,只有 Transformer 是能支持無限的加大規模。所以,到目前來看 Transformer 這套模型至少被驗證了,是目前效果最好的。
所以,大家聽明白這一點嗎?這個方向絕對是正确的。OpenAI 走對了方向。
其次,Transformer 是把文本,文本是一個一維的數據,一個單詞在另一個單詞的前後,只有前後關系。處理圖片他們現在也是用類似的方法,圖片是二維的,一個像素,有 X、Y 軸的關系。視頻是 3D 的數據,為什麼呢?一個色塊除了有在圖片上的位置之外,它有按照時間移動的關系或者按照時間變形的關系,所以,這次 Sora 的出現在技術上有個巨大的成果,OpenAI 用 Transformer 架構成功實現了對各種各樣的文字、圖片、聲音還有視頻的歸一化的處理,而且再加上 Transformer 本身對語義的了解,對知識的理解,所以,它這次能做出 Sora 是把 GPT 的能力融在裡面了。它還做了一個文生圖的東西叫做 DALLE,把 DALLE 的能力也融在裡面了,所以它就比 Pika、或者 Runway 這種只是利用 Diffusion 模型做像素的復制這種效果要好很多。所以,Transformer 目前全世界都在跟這個架構,這次處理視頻怎麼做呢?最早大家也不知道該用什麼架構做,有的人是用 Diffusion 做,就是 Pika、Runway 這種概念,就是把動畫看成是多幀圖片,把一張張圖畫出來,但是它沒有用 Transformer 模型來做。所以,在這種方向性的創新上,OpenAI 做得非常好,我覺得差距主要在這裡面。
我剛才啰裡八嗦講了點技術細節。第一,我們和别人的差距主要在方向感上,一旦方向感确定,中國公司的學習能力和模仿能力會很快,而且你可以想象,馬上就會有人去挖 Sora 團隊的那些人,這些人中有些人會出來創業,比如同行會發布開源的東西,會發布一些公開的論文,所以,這裡面很多方法很快都會洩露出來或者分享出來,對中國團隊來說去跟進,不是一個很難的問題。但是 Sora 讓我覺得最震撼的是說,它產生視頻是一個副產品,它在做這個過程中突然發現說,通過對很多視頻材料的學習,不僅學到了如何去繪出圖案,最重要的它要繪出真實的這種、符合我們每個人常識的視頻,它必須要了解這個世界很多元素之間的互動關系,我不知道大家理解不理解這個意思。
所以,我再舉個例子,Sora 如果開測試賬号,如果能拿到之後,你們可以多替我做個實驗,讓 Sora 畫一場籃球賽,讓 Sora 畫一場足球賽。如果一個人根本沒有看過籃球和足球,不懂得籃球和足球軌迹不一樣,得分規則不一樣,它是畫不出來的。比如說籃球打到籃板上會反彈不會穿過去,但籃球打到籃筐裡就會垂直的落下來,籃球在地上會彈起。這些知識如果 Sora 不掌握,你可以想象一個人如果都沒有看過,沒有把這個常識總結下來,他要把它復現出來幾乎是很困難的。
我通過這個例子來講,為什麼 Sora 讓人離 AGI 又近了一步呢?GPT 實際上是解決了機器和人之間相互理解和互動的問題,因為它理解了語言。理解了語言的時候,楊樂坤就曾經攻擊,說它不理解,它只是會填空。但實際上,一旦把人的語言理解了就意味着是非常大的進步,因為語言是人類所獨有的發明的東西,人類用語言可以描繪邏輯,人類用語言可以描繪這個世界的模型,人類可以用語言來描繪人類積累的知識。所以一旦把語言理解了,就意味着 AGI 的第一個難關就攻克了。
但是光是能說話了,智能是沒有太大用處的。因為它對這個世界的很多規律并不知道,比如你弄個機器人,想讓機器人到冰箱裡拿個西紅柿炒雞蛋,你發現訓練起來就很難。因為它要知道西紅柿是硬的摔不破,雞蛋一摔就會摔破,他要知道怎麼磕雞蛋,這些知識靠文本知識是不夠的,必須要像我們人類一樣要見過之後才能知道。所以,這次 Sora 等于有意無意,我個人覺得對 OpenAI 來說可能也是無意中做出來的,大力出奇迹之後他發現說,他實際上通過 Sora 的訓練方法讓機器能夠跟世界互動了。
最後他利用 Diffusion 模型只是把他要做的視頻做出來,但前面它一定是在 Transformer 模型裡把這個世界的一些規律給理解了,我不知道大家理解這個意思嗎?因為我做過一個比較,一個畫面一只貓早上去撓主人要吃的,那個主人在床上翻身,你們看過那個嗎?你們可能光注意貓和主人了,沒注意那個枕頭。你知道那個主人在枕頭上一翻身,枕頭被壓皺了,枕頭柔軟的感覺。這個如果用計算機特效來做,這絕對是一個噩夢,你用什麼函數來描述這個枕頭的塌陷,來描述這個枕頭的皺紋,大家就會做的不像真的。但是 Sora 有限的算力,它一定是看過床和被子、枕頭類似的這種感覺,所以它把這種感覺能夠重繪出來。所以,我覺得這是 Sora 最了不起的地方。
為啥我說它最後真正的貢獻是給通用機器人和自動駕駛呢?你讓通用機器人和自動駕駛有了對真實世界這種互動和感知的能力,你對這個世界的理解就比理解語言又更近了一步。
所以,這次 Sora 在 AGI 上的突破,從人類的角度來說,是了不起的突破。
問:對于中國來說,2024 年,有沒有其他的一些獨特、值得拓展的優勢?您怎麼看待今年中國在 AI 方向的前景?
周總:我覺得中國還是有優勢的。盡管大家現在言論一邊倒,老是認為,因為在原創技術上我們落後,它是一個客觀事實。但是,這個落後,唯一樂觀的這個落後不像光刻機和芯片差距那麼大。畢竟 Transformer 模型也好,Sora 也好本質上還是軟體,所以,現在這個落後的時間,我覺得大概也就是一年到兩年的時間,是可以去解決的。
但是,另一方面,你不需要等到全面趕上 GPT-4,全面趕上 Sora,我們才能去應用。所以,現在有一條主線是做 Sora 和 GPT4 這種超級通用的大模型。這是一條主線。2022 年、2023 年中國追趕的還不錯,用了不到一年的時間趕上 GPT-3.5 了,我覺得還是 OK 的。
2024 年,我覺得應該是應用之年。否則大家對 GPT 會有啥感覺?就是能寫詩,能鬥樂子,能解奧數題,但離工作還太遠。或者能在辦公方面幫我們做一些工作。Sora 大家震撼多點,是因為 Sora 比 GPT 更近一步,大家明顯感覺短視頻產生在影視工業、遊戲行業、廣告業能夠做點具體的事了,但依然是一個通用的工具。我覺得 2024 年,除了這兩件事之外,2024 年在企業方面在垂直領網域,大模型是大有可為的。
大模型本來要真正產生一場工業革命,大模型一定要進入到百行千業,跟很多企業的業務流程或者產品功能相結合。我們泛泛地講做一個通用大模型超過 GPT4,真的超過 GPT4 是比較難的,但是 GPT4 是一個全才生,啥都懂,但是它不專。但如果我在某一個業務領網域有獨特的業務數據,我就此在一個垂直領網域把大模型訓練的很好,而且把大模型和企業的很多業務工具結合在一起。就像大模型不僅有腦子,而且有獨特的知識,還有手跟腳,那麼,我覺得在一些垂直領網域大模型的能力,一方面能超過 GPT4 是完全有可能的。而且做垂直的模型,我也很贊同一個觀點,它不需要做千億、萬億的模型,它只要做百億的模型,這樣對很多企業承擔的成本來說也沒問題。
如果你做企業,按照我的一個預言,大模型無處不在,企業裡面将來不會只有一個超級大模型,企業裡面會有多個小規模的、百億級的大模型,每個大模型就幹一個場景的加強工作。這個大模型再跟企業的業務平台結合起來,按這種模式,對現在很多企業來說大模型完全用得起,而且可以用得很好。
所以,我們(360 公司)在網絡安全方面做一個安全的垂直大模型,用的是百億的模型訓練的。因為 360 有兩個優勢,一是我有很多安全工具,等于用這些工具的能力給它實現了能力的增強。大模型不能只動嘴,不能只思考,它還要有手和腳。還有我們有很多專家積累的知識,360 安全大數據積累的知識,我們把這些知識全都灌到大模型裡去,現在這些大模型已經完全取代了 360 的安全大腦,現在在用戶那裡試用,碰到 APT 攻擊已經能夠自動發現、自動處置、自動給用戶出報告。在這一件事發現 APT 這件事上,我可以驕傲地說我們超越了 GPT4,當然你别跟人家比全面能力。
所以,我是覺得,2024 年無論在 To c、To B 都應該出來一個具體的場景。
問:我想問一下,在文生視頻後,視頻生文離我們還有多遠?
周總:這個問題問得有意思。文生視頻是最難的,文生視頻的過程中,必須有視頻生文的技術做支撐。所以,在這次 Sora 的技術報告裡,它管這個技術 caption,很多人把它翻譯成字幕技術,就是視頻生文和圖生文的技術。OpenAI 從 Tiktok,包括從美國很多電影裡搬了很多視頻片段來做訓練,光是給它看視頻沒有用,一定是要把視頻打上标籤,要注明,這裡就需要用到圖和視頻生文的技術,這個技術比較容易。
問:現在有越來越多的年輕人希望創立 AI 公司,那麼您認為釋放技術最大潛力的方向在哪裡?
周總:我簡單說,AI 目前看有三個方向。一個方向是做大模型本身,這塊我不認為年輕創業者能做,要想做就應該加入大廠去做,因為你沒有足夠的顯卡、沒有足夠的算力,沒有長期的投入,國外這些公司說白了現在微軟 OpenAI 一年都要賠上百億美金,投入是巨大的,顯然小創業公司肯定幹不了。現在這些小創業公司,我也不點名,就算融到幾輪資,做了一個大模型出來又怎樣呢?因為現在免費大模型已經把這個從原子彈變成了茶葉蛋了,大模型幾乎是免費的。所以,這條路我認為就是你說的,我不贊同他們走。
第二個,利用大模型的 API 在 to C 場景找一些應用,相當于用别人的,用百度、用 360、用阿裡的大模型做後台,大模型相當于是一個 agent,給我提供能力的支撐,我找一些用戶場景,這條路是比較可行的。但這個不是簡單的套殼,套殼是你做得跟 GPT、跟 Sora、跟 Stable diffusion 做的差不多,這種套殼是沒有價值的,只要大模型廠商哪天一更新套殼的東西就會死一批。比如說我舉個例子,Sora 出來了,是不是做文生視頻就沒有價值了,不是的。Sora 只能做一分鍾,但是你要做十分鍾的話,比如你是不是需要有一個工程的管理,讓它幫你把十分鍾的東西調 Sora 做出來十段視頻,最後你要把十段視頻連在一起,你要配音,你要加字幕,有些地方是 Sora 的結果,有些地方是配上你自己拍的視頻。只要你找到用戶的場景,你後面可以調各種人工智能的強大的 API 的支撐,你還是能夠做出應用級别,不要老是在核心技術上說我要去跟 Sora 去。所以,最近 Pika 說準備轉型,如果它轉型成功,它的人機界面比 Sora 更友好,它在 Sora 之上能夠提供更復雜的視頻剪輯能力都是有機會的。
第三,我剛才反復說了好幾遍的,從目前來看 GPT 真正的作用還是在提高生產力,在中國國家也在支持更多的企業做數字化,所以大模型進企業,而且用百億的這種規模非常低的成本進企業是完全可行的,而且企業裡面只要你不貪多貪大,說我給你做一個什麼很宏大的大模型,而是選一個比較具體而微的場景解決問題,那麼它超過 GPT4 的可能性是非常大的。但這裡面就需要放下身段,因為這時候用什麼場景、用什麼業務一定要找到某些行業、某些專業的這種垂直業務的公司,要跟他們合作。這時候有點像你做乙方别人做甲方,對很多創業者來說是巨大的挑戰,因為創業者有時候比較牛比較自我,可能不一定聽得進别人的意見,他覺得我懂核心技術,但你要把核心技術用到很多傳統企業裡,在業務上确實要聽這種傳統企業的調度。
問:大模型現在難在哪裡?
周總:第一,這個方向出來之後,國外也有兩條路線的鬥争,一條是以 OpenAI 的閉源,還有一條是以 META 為代表的開源,所以,開源的路線,開源的目标要打過閉源,他們會不斷的去猜測閉源怎麼做,會把很多東西開源出來。開源出來的好處是天底下有很多好公司還有很多大公司程式員個人會積極的在開源項目裡,大家都踩着别人的基礎上貢獻成果,所以它的化學作用會非常明顯。我現在猜測,最近在國内我找了一些大學,包括昨天回來的時候和清華的張亞勤教授,他原來是微軟中國的頭,也在百度當過總裁,現在到了清華當我的老師去了,我現在不是在清華念書,所以也跟他聊了聊,現在很多的技術裡面用到了那些模型和算法應該都是公開的,實際上 OpenAI 最大的能力一個是找方向,一個是工程化思路非常嚴謹,現在就是要把這個工程化的思路探索出來。所以,大家前面學 GPT 的過程中,也是方向已經确定了,往東走毫無疑問一定能走通,但具體碰到一個檻怎麼過,碰到一個山怎麼翻,它也有很多具體的坑要踩,有很多具體的方法要驗證,所以這個需要時間。
第二,我的猜測對算力可能會是一個檻節。網上有些言論也不對,網上說 Sora 的參數不大,只有 30 億參數,這個人弄錯一個概念,視頻的參數和文本的參數不能簡單做對比,就像文本我有十萬字,視頻只有 640 × 480,但是它兩個占的存儲量完全不在一個數量級上,所以,第一它不僅有 30 億參數,第二就算只有 30 億參數,視頻分析對算力的消耗應該是遠遠超過做一個千億模型。所以,我覺得現在國内的顯卡都被卡脖子之後,可能算力是一個問題。所以,包括 GPT,包括 Sora 為什麼只能做一分鍾,我在猜測,因為它和 4 秒、6 秒有本質的差别,4 秒和 6 秒是因為全部用像素生成,沒有世界的知識之外,4 秒、6 秒之後的圖怎麼樣就想不出來了。所以,Sora 能解決一分鍾,意味着它也能做十分鍾,也能做六十分鍾,但它為啥不做?我覺得也是由于算力的限制,還有成本的限制。
所以,對國内來講,下面如何能夠把算力集中起來。
為啥我反復做科普,Sora 如果僅僅是一個文生視頻的工具,我們落後就落後了,不就我們廣告落後點,不就我們電影拍得慢一點嘛,這些落後都不會給大國競争帶來問題,不就對娛樂業帶來影響。但實際上這件事預示着 AGI 的一個關鍵節點,所以,這件事對國家是挺重要的。
問:對于大模型的紅利期,您的判斷何時能出現?
周總:我認為大模型的紅利還沒開始,現在唯一能賺錢的就是英偉達,國外最掙錢的是英偉達,除了英偉達之後國外包括微軟也不掙錢,微軟每年在賠錢,OpenAI 也在賠錢,所以還沒有進入到紅利期。我估計亞馬遜會掙錢,雲廠商和硬體廠商肯定率先掙錢,但是我覺得如果能場景化了,2023 年、2024 年在一些場景化上可能能夠看到這種掙錢的機會,所以,大模型的紅利,這是一場工業革命級别的革命,未來的紅利期至少有十年以上。
這個紅利會非常長,至少十年,現在大家還沒賺到錢,除了英偉達賺到錢了,大家還沒人賺到錢,這表示剛剛開始,如果每個人都賺了很多錢了,就跟今天互聯網公司很賺錢一樣,這個行業就已經成熟了。