大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 财經

對話復旦大學教授肖仰華:這輪生成式AI泡沫早晚會破,天花板一定會到來

2024-09-09 简体 HK SG TW

今天小編分享的财經經驗:對話復旦大學教授肖仰華:這輪生成式AI泡沫早晚會破,天花板一定會到來,歡迎閲讀。

復旦大學計算機科學技術學院教授、上海市數據科學重點實驗室主任肖仰華

在 Scaling Law(縮放定律)的 " 指引 " 下,AI 大模型技術正朝着加大訓練數據、加大算力投入、堆積參數等方向前進,模型一代代 " 膨脹 ",因此,如何用更可靠的數據進行訓練模型,正逐步成為 AI 大模型發展的根本性的、長期性的關鍵要素之一。

9 月 5 日 -7 日舉行的 2024 Inclusion · 外灘大會 " 從 DATA for AI 到 AI for DATA" 見解論壇上披露的 Epoch AI 數據顯示,自 2026 年起,人類產生的新數據量将比模型學習的新數據量要少,預估到 2028 年,AI 大語言模型将耗盡人類數據。

這意味着,無論是高質量的人類開放語料,還是互聯網開源流通的信息語料,未來基于這些數據技術的模型效果最終将出現 " 瓶頸 ",從而很難實現比人類更智能的通用人工智能(AGI)目标。

那麼,如何用更優質的數據發展中國 AI 技術?高質量數據如何推高 AI 技術上限?

對此,9 月 6 日下午,復旦大學計算機科學技術學院教授、上海市數據科學重點實驗室主任肖仰華與钛媒體 AGI 等少數媒體進行對話交流。

肖仰華教授認為,AI 大模型落地的本質仍然是數據工程。但當前,大模型發展過程中,其對數據的消耗和使用極為 " 粗放 ",對數據的使用效率極為 " 低下 ",和人類相比遠遠不足,同時,千億大模型的數據可能存在極大 " 水分 ",現在已經處于 " 大模型數據耗光 " 這一狀态。因此,發展合成數據、私網域數據、個人數據訓練,可以進一步提升大模型的技術能力。

當前,AI 大模型技術領網域,為了達到 AGI,模語料數據規模變得 " 越來越大 "。

以 Meta 公司發布的開源大模型 Llama 3 為例,其使用了 15T Tokens,是古代世界最大圖書館——亞歷山大圖書館 70 萬冊藏書(以每冊 10 萬字計,累計 70G Tokens)規模的 200 多倍。

更早之前,OpenAI 披露,GPT-3.5 的文本數據多達 45TB,相當于 472 萬套中國四大名著(《三國演義》、《西遊記》、《水浒傳》、《紅樓夢》),而 GPT-4 在之前訓練數據集的基礎上又增加了多模态數據,規模達數十萬億級 Token。

盡管大模型所展現出的重要能力,得益于背後的海量數據、藴含了豐富的知識和智能。然而,當前大模型仍面臨 " 幻覺 "、垂直行業信息缺乏等核心挑戰。其中,大模型生成不正确、無意義或不真實的文本的 " 幻覺 " 現象,受到廣泛關注,公開研究曾披露 OpenAI GPT-4 模型的錯誤率能達到 20% 以上,而造成這一現象的主要原因是大模型缺乏高質量數據支撐。

在一定程度上,數據決定了 AI 大模型 " 智能水平 " 的上限,但當前的千億大模型當中,80% 都是 " 水分 ",即大量的語料數據都是無意義、錯誤率極高的信息。

所以,提高數據的質量和多樣性等方式,對于未來大模型技術發展以及落地應用來説至關重要。

肖仰華現任復旦大學計算機科學技術學院教授、博導,上海市數據科學重點實驗室主任,復旦大學知識工場實驗室負責人,2009 年獲得復旦大學博士學位後留校任教,研究方向包括知識圖譜、大模型以及社會科學啓發下的人工智能等。

肖仰華在演講中表示,當前大模型技術實現過程中,數據消耗了極大人力資源與資本投入,所以大模型落地的本質仍然是數據工程,數據在整個大模型技術體系中處于一個核心的基礎地位。

因此,如果大模型真的要走向千行百業,必須要解決 " 幻覺 " 問題,背後則需要運用合成數據、私網域數據、個人數據、小模型、知識圖譜等技術方法,或協同方案。

" 實際上,現在所謂的千億大模型可能存在極大‘水分’,大多數參數可能只是在編碼瑣碎而雜多的事實,與大模型的智商關系不大。所以,我們有沒有可能在這 1000 億模型基礎之上将‘水分’擠掉,把無用的知識全部榨幹,只留下 100 億、10 億最關鍵的數據參數,它将決定大模型理性能力的關鍵。被擠掉的‘水分’知識完全可以放在外部文檔系統裏,通過 RAG 系統能夠在應用時檢索到即可。" 肖仰華對钛媒體 AGI 表示。

他坦言,越來越多的人仍然是把精力花在找更多的數據而非質量,已經存在一些研究成果表明 5% 的優質指令數據有可能會比 100% 的一般指令取得更好的大模型微調效果,所以大眾不應該能再盲目追求數量,而是要去想一想數據質量如何提升。

對于數據消耗,肖仰華詳細分析了三個形成基于高質量數據的模型技術方案:合成數據、私網域數據、個人數據。

首先是合成數據。互聯網數據雖然消耗殆盡,但人類可以在這個數據基礎之上合成更多的數據,可以在原始數據上不斷思考、反思、關聯、融合,產生更多的數據。合成數據是很重要的思路,不僅只是為了緩解數據用光的問題,而且合成數據大部分是人類思考過程的數據,實際上可能比現在已經獲取的數據更多。通過合成數據把大量隐性、沒有記錄、沒有表達、過程的偏重思維的數據表達出來,這種數據對激發大模型的智商,或者理性能力至關重要。現在大模型其實只有知性,沒有理性,因此,合成數據就是提升理性能力非常重要的一個思路。使用模拟思考過程的合成數據訓練大模型,它才能知道應該怎麼去思考問題,而合成數據既是為了緩解數據的 " 飢荒 ",也是為了提升大模型理性能力。

第二是私網域數據。人類更多高質量、高價值的數據是在私網域(垂直行業)當中,如果使用私網域數據訓練大模型,可能會讓大模型變成行業專家。因此,用好私網域數據是很關鍵的因素,數據有待挖掘的潛力仍然十分之大。

最後是個人數據。個人數據用于訓練大模型才剛剛開始,包括蘋果在内的很多手機終端廠商,下一步一定是用個人數據和大模型結合。因此,如何把個性大數據和大模型結合好,變成個性化大模型,為每個人提供服務,對此未來還有很長的路要走。

不過,肖仰華也認為,當前數據要素市場尚不健全,使得私網域數據的匯聚和交易流通也是困難重重,挑戰非常之多。同時,大模型對數據利用的 " 貪婪程度 ",也影響了數據的存儲、生產、加工、流通、消費各個環節的技術走向。

" 模型的評估、數據的篩選和模型的訓練三件事應該是‘三位一體’的,我們需要注重數據的用法。" 肖仰華稱。

在肖仰華看來,AI 大模型技術發展至今,仍然還處在一個非常早期的時代,從原理和源頭上還完全缺乏理論和方法,而且大模型參數量變大,并沒有讓它的智商和理性能力所有增長。

"Scaling Law 很快就會見到天花板,或者説我們要重新去看待 Scaling Law。并且,我們要從源頭上去梳理這些問題,去激發大模型的核心認知能力,提升大模型的理性水平。" 肖仰華表示。

不過,部分學者對于合成數據的前景也有一些懷疑和争議。

9 月 6 日,OpenAI 創始成員、AI+ 教育公司 Eureka Labs 創始人安德烈 · 卡帕蒂(Andrej Karpathy)在播客節目 No Priors 節目中表示,Transformer 還遠沒到自己的極限,新的改進和創新主要集中在數據集方面。盡管使用合成數據對于創造下一代大模型有很大幫助,但合成數據往往多樣性和豐富度不足。

安德烈 · 卡帕蒂也承認,當前數十億級參數量的大模型存在很多雜訊,他認為與互聯網數據本身有關,因為其可能是由 0.001% 的認知數據和 99.999% 的相似或雜訊構成的。而當前的模型浪費了大量容量來記憶無關緊要的事情,原因是數據集沒有經過精細化的調整(curation)。而真正用于思考的認知核心(cognitive core)可以非常小,如果它需要查找信息,它會知道如何使用不同的工具。未來,未來當下一代模型發揮作用時,它們會出現不同的分工,比如程式員、產品經理等。

另一方面,肖仰華表示反對 " 機器取代人類 " 的這一觀點,他認為技術的所有進步和發展還是要 " 以人為本 ",沒有人的文明是沒有意義的。

" 現在大模型就很擅長,可以很容易做到一段文字一字不錯。事實上,文字偶爾出錯無傷大雅,重要的不是文字有否錯别字,而是文字背後是否是真知灼見。我們在太多無意義的細枝末節浪費太多精力,而對事關宏旨的本質卻又輕松放過。以大模型為代表的 AGI 的到來,粉碎了人類無意義的事項,倒逼人類回歸價值本原。" 肖仰華稱。

展望未來下一代萬億級參數的 GPT 模型,肖仰華指出,未來也許大家并不需要過多的數據,只需精煉即可。然而,在此之前,人類可能需要通過萬卡訓練和打造萬億模型,以此來探索智能的極限。但早期的那些千億、萬億的大模型,可能存在很大的 " 水分 "。所以,人類必須先擁有 " 水分 " 充足的大模型,然後才有可能擠出這些 " 水分 ",從而獲得一個小而精的模型。最後,基于這個小而精的基座模型進行微調與訓練,在小規模集群或單機上完成微調工作。

肖仰華強調,這波生成式大模型的泡沫早晚會破,天花板一定會到來。首先,人類產生優質數據的過程是相對緩慢的,大家不可能每天都產生對于世界的重大新認識,優質數據的緩慢生產速度為成為大模型發展的天花板。其次,合成數據的質量控制仍存在不少技術挑戰,且合成數據是基于原始真實數據推理而產生的,因此也會限制大模型獲得本質新穎的知識與能力,也就是大模型會遭遇所謂的演繹閉包困難。最後,即便訓練出來了參數規模是人腦的 10 倍、100 倍的超級大模型,人類當下的智識水平可能限制我們去認識這樣一個超級智能形态。這樣一個可能的超級存在也就與人類無關。試想一下,如果螞蟻文明舉全體螞蟻世界之力造出了人類水平的智能,那麼這個相對于螞蟻而言神一樣的智能體一定是忙于探索星辰大海,去接近或實現一個更高的存在,而無暇去關照自己的造物主。

"AI 好比一個照妖鏡,将人類社會一切沒有價值的事情進行摧毀,倒逼大家去做真正有價值和有意義的事情。因此,AI 的未來發展倒逼所有行業回歸價值本原,要讓人類做真正有價值的事。" 肖仰華表示。

(本文首發于钛媒體 App,作者|林志佳,編輯|胡潤峰)

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們