大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享

2024-08-24 简体 HK SG TW

今天小編分享的科學經驗:李沐重返母校,上交大秒變追星現場,大模型趨勢無保留分享,歡迎閱讀。

什麼是頂流?

AI 大神李沐回母校做演講,直接讓上交大變成了大型追星現場——

現場可謂是人人從從眾眾,先來感受一下這個 feel:

正式演講前的場外已經是排起了大長龍,現場更是座無虛席。

即便是演講結束,李沐老師也是被熱情的上交大學子圍得裡三層外三層:

許多學生更是把經典的《動手學深度學習》這本書拿了過來讓李沐老師籤名:

如此場景,甚至上交大計算機科學與工程系教授俞勇都在朋友圈發出了這樣的感慨:

第一次親眼看到追 " 星 " 的盛況。

△圖源:俞勇教授朋友圈,已授權

對此,李沐老師也回應俞勇老師:

母校老師同學太熱情了。

而李沐老師此次回母校的演講,歸結兩個關鍵詞,就是LLM 趨勢和個人職業選擇。

△圖源:小紅書用戶 " 昭曦 "

尤其是正值李沐老師創業一年半(BosonAI)之際,他在現場基于自己的經歷,總結了三個不同階段中 " 每天在想的基本目标 ":

大公司:你要想如何升職加薪

博士:你要想如何畢業

創業:你要想如何 " 退出 "(要麼上市,要麼賣掉)

△圖源:B 站用戶 "Kimoyee"

金句之多,内容之精彩,引得在場師生掌聲、笑聲,聲聲不斷。

那麼李沐老師具體都講了什麼?我們繼續往下看。

(PS:完整演講視頻見文末)

談 LLM 趨勢

首先對于 LLM 的整體構成,李沐認為主要分為三大方面,分别是數據、算力和算法。

而整個 LLM 的過程非常像煉丹," 數據 " 就是找材料的環節。

就好比小說裡很多主角去深山裡找材料一樣,搞數據是個很難的過程,是個體力活。

之後的 " 算力 " 就是煉 " 數據 ",火量大一點、設備先進一點,能煉出來的東西就越好。

至于 " 算法 " 就相當于丹方,但這點與小說是不同的,因為它每年都在快速進步、變化,并且對細節的把控顯得格外重要。

對于LLM 與上一次深度學習較大的區别,李沐認為:

之前的深度學習 " 煉丹 " 是比較穩定的。

但現在 LLM" 煉丹 ",(開發者或用戶)是希望有靈魂在裡面的,它能夠解決很多問題。

接下來,李沐便針對上述的三大方面進行了詳細的講解。

在 LLM 硬體方面,李沐認為最難且最重要的是帶寬(bandwidth)。

這是因為現在大模型的訓練很難通過一個機器來搞定,而要做分布式,那麼瓶頸就會出現在帶寬上了。

畢竟現在基本上都會是多個伺服器機架甚至是集群,即便兩個機架間隔 1 米,但由此帶來的哪怕幾納秒的延遲也是不能忍的。

帶寬之後,LLM 硬體難點便是内存(Memory)。

大模型在訓練過程中,是把超大的數據壓縮到了一起,使得模型的體量動辄便是幾百個 G,運行時的中間變量也會變得很大,因此需要很大的内存:

在未來,很有可能一個 200G 内存的芯片是走不動的。

這就意味着我們的模型大小一定程度上會被受限在某個尺寸;内存不夠,模型就大不了。

在帶寬、内存之後,便來到了算力(Compute),對此,李沐認為:

摩爾定律依舊有效。

而模型到了一定尺寸之後,資源(Resources)又成了問題,也就是供電。

李沐基于自身經驗分享到,發現自己造一個電廠,比付電費的成本要低。

至于價格,當算力翻倍的時候,價格目前不一定會保持不變,可能是 1.4 倍的價格;但當市場競争足夠,長期來看可以做到價格不變。

至于芯片的替代品(Alternatives),李沐認為谷歌的 TPU、英特爾的 Habana、AMD 和 Azure 的芯片在做推理時是 OK 的;但訓練方面,可能還需要幾年的時間。

李沐在此做了個小總結:

模型訓練每年會以 2 倍的速度變得更便宜、更快、更大。

今年訓練的大模型,到明年的價值就會減半。

在模型方面,李沐從語言(Language)、語音(Voice)、音樂(Music)、影像(Image)和視頻(Video)等不同模态方面做了介紹,并認為多模态是當下的一個趨勢。

李沐還給目前不同模态的現狀打了個分:

語言模型:80-85 分左右,目前是 gets good 的狀态。

音頻模型:70-80 分左右,目前是 good enough 的狀态。

視頻模型:目前還是比較弱的。

基于此,李沐給出了一個推論:

在長文本上的人機互動變得越發流行。

至于大模型的應用(Applicaitions),李沐認為它們本質應該是可以為用戶提供無限的人力資源。

而這些應用目前在白領和藍領職場上 " 上崗 " 或 " 協作 " 的效果如何,李沐做了個表格。

從結果上來看,只有白領、文科屬性的簡單工作是 hold 得住的。

對于應用的總結,李沐認為:

只要數據足夠,萬物即可被自動化。

基于李沐創業一年半的經歷,他也分享了幾點技術上的思考。

首先,預訓練(pre-training)和後訓練(post-training)是同等重要的。

其次,沒有真正的垂直領網域模型;再垂直的模型,它的通用能力也是差不了的。

以及,在大模型評測方面,李沐認為現在的評測太簡單了,即使各種刷榜,但用起來的時候就能感受到真實效果。

因此他認為評測這件事雖然很重要,但真正做起來卻很難。

除此之外,李沐還分享了幾個觀點:

數據定義了大模型的能力上限

自建 GPU 不會比租 GPU 便宜太多

大部分機器學習時代的經驗,依舊适用于大模型時代

而除了技術之外,李沐在這次演講中也給上交大的師生們分享了自己在職場上的心得。

談個人 " 打卡式人生 "

了解李沐的人或許對他的個人經歷比較熟知了。

本科和研究生就讀于上海交通大學,而後赴香港科技大學和 CMU 深造,在伯克利和斯坦福擔任助理教授。

也曾任職于百度和亞馬遜等科技大廠,最近的一年半則是創業BosonAI(第二次創業)。

李沐回顧自己的過往,在現場戲稱為" 打卡式人生 "——什麼樣的地方都轉過了一遍了。

那麼李沐在經歷了種種之後,是一種什麼體驗?

這也正是我們文章開頭提到的 " 每天在想的基本目标 "(精彩的内容必須再提一遍):

基于這三個大方面,李沐基于自己的經驗,将各自階段的優點和缺點羅列了出來。

例如對于" 打工人 "這個角色,李沐的 PPT 剛出來,上交大的學子們便笑了出來:

讀博士期間的優點和缺點是這樣的:

聊到創業的優點,李沐形象地将這個過程比喻為:

可以體驗當(合法)海盜的樂趣,哪兒有錢就去搶一把,沒搶到就死掉了。

但李沐此次演講的兩個大 part 并非是割裂的,相反,是可以非常自然的做一個" 有機結合 "。

他認為應該從 " 動機 " 出發去解決一個問題:

有學術價值:那就去做對 LLM 的理解(PhD/ 教職)

有商業價值:那就去做 LLM 上的新應用(創業)

有成長價值:那就去做 LMM 上的產品落地(打工人)

最後,李沐老師也給了上交大學生一點 Tips:

而談到創業歸來,就在前幾天,李沐在知乎寫的一篇文章《創業一年,人間三年》非常火爆。

不僅是李沐自述了創業一年來的進展,也在三言兩語之間,展現了大佬創業的勢能——

一開始沒打算直接做大模型,但張一鳴建議要創業就直接大模型;買卡需要排隊等不及只好給老黃寫信,沒想到老黃就給安排了;剛創業做遊戲的 " 老蔡 " 就來交流過了——米哈遊那個老蔡;在斯坦福和快手創始人宿華散步,感嘆創業心得……

總之,千字短文,但細節之精彩,故事之有趣,值得多讀幾遍:

《創業一年,人間三年》

One More Thing

目前已經有 B 站網友 Kimoyee 将李沐老師此次的演講視頻上傳,感興趣的小夥伴們可以 " 深度學習 " 下哦 ~

參考鏈接:

[ 1 ] https://www.xiaohongshu.com/explore/66c926d9000000001f01929c

[ 2 ] https://www.xiaohongshu.com/explore/66c81dd5000000001f014761

[ 3 ] https://www.bilibili.com/video/BV1vBWDepECq/?spm_id_from=333.337.search-card.all.click

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們