今天小編分享的互聯網經驗:趙何娟:中國AI追随之路的五大誤區,我們至少落後十年,歡迎閲讀。
近日,由長江商學院主辦、汕頭大學協辦的 "2024 長江獨角獸峰會 " 上,钛媒體集團創始人、董事長、CEO 長江商學院 EMBA 項目校友 趙何娟發表主題 " 中國 AI 追随之路的五大誤區 " 的演講。
以下是钛媒體 AGI 編輯整理的演講主要内容:
各位校友,大家好,我今天演講的題目是 " 中國 AI 追随之路的五大誤區 "。
從钛媒體角度來説,在 AI 領網域我有兩個角色,既是 AI 領網域裏面的研究者報道者,也是 AIGC 在内容產業變革中的實際應用參與者。
從 AI 1.0 的時代,钛媒體就緊密地關注 AI 領網域的發展,而在 AI 1.0 時代,無論是中國上市公司還是應用角度來看,與美國相比,我們好像已經有趕超的趨勢。但是到了 AI 2.0 時代,也就是 AIGC(生成式人工智能)時代下,我們突然發現,為什麼中國一夜之間好像就變得落後了。
下午我都很認真的聽了每一位嘉賓的分享,其中有嘉賓問到説,為什麼好現在 GPT 火了之後中國大模型很快就趕上來了,説明跟美國相比,中國的實力、能力建設就可能差了一點點。
但其實我現在想 " 潑點冷水 ",我覺得短期來説我們可能有點太樂觀了。不僅對中國市場過于樂觀,而且可能對全球 AI 應用爆發的速度也可能過于樂觀了。我認為,短期内沒有大家想象那麼快,長期又可能過于 " 忽視 ",總想着是不是馬上能賺錢。
我們報道 10 多年,一直跟蹤這個領網域,其實中國有很多 AI 領網域的創業。但我們現在已經處于一個相對落後的狀态,我們可能要更多地面對現實,怎麼走出 " 偽 AI 創業區 "。
接下來我再詳細講一下。
AI 領網域今年最受關注的兩件事:AlphaFold 3 剛剛發布、GPT-5 即将發布。
首先就是昨晚(8 日)钛媒體最早、最全面報道的 Google DeepMind 團隊發布的 AlphaFold 3 模型。
2022 年,AlphaFold 2 增強版發布,兩年之後的今天,它更新到 AlphaFold 3 模型——生物學領網域關于蛋白和生命結構預測的模型。這個過程中的最根本的一個變化,就是把底層計算方式、模型算法變了。
AlphaFold 3 使用了基于 Transformer 生成式模型和擴散模型的結合,對于蛋白質與其他分子的相互作用,與現有預測方法相比,AlphaFold 3 預測精度提高 100%。
之前的 AlphaFold 2 預測精度已經較之前至少翻了一倍,如今再翻了一倍。這個過程中相關科學家有過對比,這可能為生物研究界帶來了數億年的進步,節省數萬億美元。
也就是説如果不用這次 AI 大模型,我們靠研究人員自己去研究,可能要花數億年、花掉數萬億美元才能達到現在的計算效能。所以,這就是真正 AIGC 的力量。
但中國在此方面的研究成果幾乎是 " 空白 " 的。今天我們還發了顏寧教授的演講,前兩年她還説 AI 不可能準确預測蛋白相關結構,如今的發布可以説被 " 打臉 " 了。
第二個就是 GPT-5 即将發布。
我認為,這件事情帶來的震撼力不會低于 AlphaFold 3 的颠覆性技術影響。因為 GPT-4 的發布就是比 GPT-3 更加震撼。
為什麼中國能快速發展很多模型,我覺得這個最重要的是感謝開源,因為 GPT-3 之前 OpenAI 是開源的,包括谷歌 Transformer 論文也是開源的,GPT3 之後才改成閉源了。
這意味着,從 GPT-3 到 GPT-4 本質上已經是一個巨大飛躍了。而即将發布的 GPT-5,将再次實現比 GPT-4 質的飛躍,解決諸多局限性。
我去年 9 月見了 OpenAI 創始人、CEO 奧爾特曼(Sam Altman),他説過去一段時間 OpenAI 一直都在問 GPT-5 做準備。但如果 GPT-5 性能只是一個簡單能力提升的話,不會間隔這麼長時間。而 GPT-5 的一個本質變化,可能會把相關的推理模型、相關數據會做一個分離,同時可能會推出他們自己的搜索引擎。
而這些令人震撼的進展,在中國我可以悲觀一點叫 " 望塵莫及 ",樂觀一點就是但凡它推出來,我們就有能力改善和追趕。
我接下來要重點談,為什麼現在我們説,中國作為 AI 領網域追随者,要有追随者的自覺,那就是不要過于抬高自己,主要好好學習。明确我們現在面臨的一個事實,所以我們首先明确幾個誤區,才能夠清楚我們自己到底在什麼位置。
第一大誤區:中美 AI 差距只有 1 到 2 年。
我認為很重要的就是,大家每次都談談中美 AI 差距大概是只有 1~2 年,那是不是真的就是 1~2 年,為什麼會是 1~2 年?因為會有很多人説 GPT3 發布就在 2020 年,那可能在 2022 年 chatGPT 出來之後,我們也快速出來了類似于 GPT3 相關的模型,GPT4 出來之後,我們也很快能出來一個對标 GPT4 水平的模型,就意味着我們相差的時間可能是 1 — 2 年,真的是這樣嗎?
我會覺得所有用這樣時間來表述差距的都是 " 耍流氓 ",因為那是人家創新蝶變的代際時間,不是我們的差距時間(能力水平)。
如果説 GPT-5 現在不能出來,我們可能 10 年都追趕不上。但是 GPT-5 出來,我們可能也許花 2~3 年能趕上。而 GPT-5 模型水平只是人家的創新節點、迭代時間水平,不是我們自己能力水平,這一點需要非常清楚,這也是我們本質上的一個差距。
我們要看到,這真的是創新引領的差距,不是一個我們花兩年趕上一個模型就改變了中美 AI 差距了。
第二個誤區:中國是全球最大的 AI 專利和人才市場。
我們常常會説,尤其是在 AI 1.0 的時代,中國投資人和創業者到美國硅谷做相關演講説,中國 AI 已經領先于美國了。背後經常會提到的一個指标是,中國是全球最大的 AI 的專利和人才市場。
這個專利市場包括我們中國發布 AI 相關論文和申請 AI 專利的數量,可以説全球數一數二的,然後以及從事 AI 相關人才的數量,我們可以説全球數一數二。
但事實是什麼樣的呢?
我們可以看這張圖,裏面可以看到,新一代全球數字科技領網域,大多數都是以 AI 相關論文的,中國排名确實是很高的。但是到相關頂尖論文的數量,或者説被引用論文次數的數量,我們一下就落下來了。
也就是説,事實情況是,雖然我們的論文數量是全球領先的,但是作為世界公認标準 Top one 的頂尖論文數量,中國不僅低于美國,我們也低于德國、加拿大、英國等。
與此同時,我們可以看到我們相關工程師人才。
中國确實在大學當中培養大量工程師、計算機領網域人才,包括很多硅谷的大企業都到清華北大,到中國招聘計算機專業人才。
但是我們可以看到,即便是在 2022 年頂尖研究人員裏面,雖然中國也是排在第二名左右,但是一上到頂級 AI 研究人員數量,只有美國的 1/5 左右。。如今,2024 年可能比兩年前更糟糕了。
所以這不是我們想的那樣,中國是全球 AI 人才大國。
第三個誤區:中國 AI 的主要障礙是在算力上 " 卡了脖子 "。
中國 AI 的主要障礙在于 " 算力卡脖子 "。我們認為算力卡了脖子,所以我們只要以各種手段能夠買到相關的芯片,那是不是就已經達到相關水平了?
但是我想給大家潑一杯冷水的是,在這一輪 AI 2.0 的這一輪發展裏面,不僅算力很重要,模型創新能力也很重要,數據能力也很重要。因此,現在的事實是,我們不僅是 " 算力 " 是瓶頸,我們的底層模型的創新能力、數據能力都是 " 瓶頸 "。
我先説數據能力,很多人覺得中國是一個很大的應用市場,中國的消費者數據,企業行為數據等等各分析的數據一定是很豐富的,所以大家覺得中國是有充分的數據,但是我要非常殘忍的告訴大家,很多數據都是無用數據,或者是不可用數據。
我在今年年初的時候跟美國氣象的一個華裔科學家,同時也是中國氣象所的顧問,在講到氣象數據的時候,我説我們也有相關的公司推動了相關氣象計算預測的模型。那個科學家就非常直白的説了一句,我們所有的氣象數據幾乎都是沒用的,因為我們缺乏對歷史氣象數據的整理,缺乏氣象數據的歸納,缺乏氣象數據相關的整合,變成可計算的數據。
目前對于中國而言," 都缺 "。美國 AI 生态裏面最重要的一個就是關于數據市場的建設。但在中國,理論上説是沒有數據市場的。這個就是生态建設能力裏很重要的,就是關于數據市場的建設。那你數據市場不成熟,你能算什麼?
中國的模型公司,可以説在中文的計算能力上相對來説是領先的,但是整個中國的數據市場占全球的數據市場不到 1%,以及再看所有的數據有效性的時候可以看到,世界主流所有相關的論文數據、研究數據,包括用户的應用數據,視頻也好,還是文字也好,相關的應用數據,絕大部分依然是英文的數據。
所以如果我們不能很好的用英文的數據計算,我們如何能形成我們自己有足夠競争力的大模型,這個是很難的。這就是為什麼我説我們不要以為美國只是卡了我們的算力脖子,好像只在半導體上發力就行了,實際上是整個生态能力建設,從算力到底層模型的創新,到數據能力和數據市場的生态的建設,我們整體都是落後的。如果非要用時間來説的話,真要把能力建設起來的話,沒有十年的時間是很難把它很好的建設起來的。
第四大誤區:閉源大模型 VS 開源大模型 誰更好?
前段時間可以看到有一些企業家和網紅一直在争論説閉源大模型好,還是開源大模型好,我覺得這更好這事情根本不重要,只有誰更合适。
其實不管是開源還是閉源都有各自的優劣,就像手機的 iOS 是閉源,安卓是開源一樣的,它是有各自的優劣。可能目前在性能上來説,尤其是大語言模型,因為現在大語言模型動辄就要算千億級數據都算小的,動辄都是萬億的數據,像 OpenAI 都是數萬億級的數據了,這種時候閉源的性能是明顯高于開源的。
對于很多的應用來説,或者對于我們的場景,我們其實是沒有必要每一個模型都算到萬億級那麼大的,那麼在一定程度上裏説,開源模型并非不可以。
作為 OpenAI 這種領頭羊來説,它的目标是要實現 AGI,就是要實現通用人工這件事情來説,閉源可能會讓它有更快,更容易集中更多的資源、資金,更快的實現 AGI 這個目标。
但是對于要來做全社會普及有更多的應用和更多的迭代的速度來説的話,可能開源大模型也是非常必不可少的。所以我們應該跳出是開源大模型更好,還是閉源大模型更好這樣的争論來看,不管是哪一個更好,最重要的都是我們是否有自己的創新能力,是否有自己的原創性能力,而不是低水平的山寨。
我們在説百模大戰,千模也好,假如説我們的模型都有各自的創新點,都在各自的領網域裏能夠發揮出相關創新的作用,那麼一個也不多。
假如説百模大戰也好,千模大戰也好,不能有任何的創新點,只是在低水平的山寨和復制、内卷,那麼确實一個也不需要。所以我覺得這個才是真正的問題,就是自己能不能在模型的創新能力上真正的走到世界舞台上,這是要好好的想的事情。
第五個誤區:AI 在各大垂直產業的爆發,會很快發生。
在中國我聽到最多的都是説,我們馬上要進垂直產業的爆發,今年都是大模型應用爆發的元年。我今年年初就跟一些朋友説,今年不可能是 AI 垂直產業爆發的元年,可以説是應用的開始,但不能説爆發的元年,不可能馬上爆發,因為所有的事情都是有基本規律的,一個產業、行業的發展都是有規律的。
而核心的原因就是因為,我們整個基礎設施能力還沒有達到產業廣泛應用的标準。
比如説現在的 SORA 也好,還是什麼應用也好,我們已經達到了 50% 的水平,那我是不是可以有 50% 的應用呢?不是的。如果説產業應用必須要到 90% 的水平,你只有 50% 的水平,哪怕只有 89% 的水平,你都不可能在這個產業裏快速的得到爆發級的應用。
大家不要認為只有中國算力被 " 卡脖子 ",而是全世界的算力都被 " 卡脖子 ",美國企業也一樣被算力 " 卡脖子 "。這就是為什麼,OpenAI 在推進 GPT-5、GPT-6 的過程中速度依然還是很慢的,更深層次是 AI 大模型就是一個 " 暴力美學 " ——以足夠大的數據、算力、能源為前提,否則一定會被 " 卡脖子 " 的,它一定是只能一點點來推進的。
有很多企業可能會指望説,中國公司認為在技術創新能力上不如美國,但中國市場規模要比美國大、中國的應用能力要比美國更強,那麼我是不是集中于創業做應用,從而能快速獲得成功或者成果?
但我認為,這件事長期來看是這樣的,但短期來看是沒有機會的。
OpenAI CEO 奧爾特曼(Sam Altman)也説,95% 創業公司依附在大模型上開發,但是大模型每次大規模迭代都會取代一批創業公司。
AI 也不會違背一般商業定律,所以當基礎能力積累到一定程度前,即便用了 AI 也不見得會取代原有產品。
這也是我今年跟 Pika 創始人在聊的時候,她最大的危機感。我問她你覺得 Pika 最大競争對手是 runway 嗎,她卻説最大的危機感是來自 OpenAI,因為 OpenAI 一定是要做多模态的技術。所以我認為,當基礎能力積累到一定程度之前,即便做了 AI 應用,也不會取代之前應用。
因為基礎建設能力還沒有達到為這個行業產生質變的時候,它就不可能變成一個 " 爆發 " 型新的 AI 時代。
很多人説,中國移動互聯網應用就在全球領先,但我們現在所處的歷史時間點位置不是對應互聯網時代,移動互聯網應用的爆發階段,即 AI 當下發展階段,不是後互聯網發展階段,而是相當于早期思科的階段。
現在的英偉達就像當年的思科,當年思科在美國市場上一騎絕塵,一年能漲 60 倍股價的時候,那個時候有什麼互聯網公司是值得一提的嗎?那時候很多現在的互聯網公司可能都還沒有出現。後來也是基礎設施能力的提升,通信技術從 2G 到 4G 的發展,網絡技術的提升、移動互聯網、長視頻短視頻的應用逐漸出來。
現在的 AI 應用,還是在幫助我們怎麼提高產業效率,但想要徹底改變這個行業來説還需要時間、需要耐心。
這就是為什麼我們説,目前還是弱人工智能,中國的大市場優勢暫時無法發揮。短期内,還是内容生成相關輔助工具為主,比如搜索、問答、文生圖、文生音視頻等。
那麼,接下來,我們要如何應對這些?
我覺得我們可能真的要形成一定的社會共識,怎麼在一個全球環境和 AI 發展過程中來做我們應該做的事。
第一個,加大基礎創新長期能力建設。
這種生态能力建設非常重要,甚至要從教育開始抓起,比如建立 AI 教育、高校教育體系評估标準、相應的學術開放和交流的體系等,需要圍繞着 AI 本身的創新技術能力去重新匹配。同時,我們也要提高大模型研發創新的基礎能力,沒有這個基礎,其他的都是 " 無源之水 "。
第二個,是耐心面對各產業應用場景的 AI 爆發周期,每個被 AI 改變的產業都面臨要從基礎底層技術改變開始的新周期,不會 " 一蹴而就 " 或者 " 一夜爆發 "。
我認為每個可能被 AI 改變的產業,也都要面臨從底層基礎設施改變,并開啓一個產業的新周期,比如我們媒體行業其實也要從底層周期開始變化,而不是説我馬上就在應用層徹底變了,不是這樣的。包括相關的機器人行業、制造業、生物制藥行業等等都會發生颠覆性影響,但從這一點來説,我們的基礎科研能不能跟得上,這就變得非常重要了。
每一個產業都有自己的底層能力、從零開始的地基建設,這個才是我們真正的產業周期。
第三個,是用更開放态度,迎接全球 AI 建設的競争與挑戰,不能自己卡自己脖子。
很多人都説,美國人卡我們的脖子,但現在我希望,我們自己不要卡自己的脖子。這也是為什麼我説,我們不要低水平的山寨競争,甚至我們可能也希望在 AI 治理、AI 規範,甚至 AI 倫理建設上面緩一緩,而是應該在 AI 創新層面更加激進一些,要用更開放的态度去做這件事。
我希望,我們 AI 領網域的研究,不要走新能源汽車的 " 老路 ",可能 10 年前我們新能源汽車還是有創新的,比如在智能體驗、動力電池技術等領網域還有很多創新。但是到今天,包括小米的進場,我們卻都是在低水平、重復性 " 内卷 ",這就意味着我們很難向前發展。
所以,我希望我們的基礎研究能力、創新能力能夠走得更快,能夠更耐心一點。
最後,推薦一下钛媒體 AGI 這個新產品。钛媒體是 AI 領網域的重要推動者和普及參與者,旗下钛媒體 AGI 也是一個全新信息產品,目前主要專注 AI 前沿資訊,聚合全球範圍内的 AI 科技動态。圍繞深度内容,打造多形态内容產品矩陣,深入挖掘行業趨勢、技術革新以及商業應用等方面内容,為企業和用户提供最新、最熱的 AI 資訊,呈現一個完整而豐富的 AI 世界。
歡迎大家訂閲和關注,謝謝大家。