大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

兆級長文本,已是一線大模型機構标配能力

2024-03-25 简体 HK SG TW

今天小編分享的科學經驗:兆級長文本,已是一線大模型機構标配能力,歡迎閱讀。

" 據我了解,國内多個一線大模型機構,都已經突破了兆級的長文本能力。"

以上,是 "2024 全球開發者先鋒大會 " 大模型前沿論壇會間隙,上海人工智能實驗室領軍科學家林達華與量子位的交談剪影。

林達華,深度學習與計算機專家,香港中文大學教授,他是商湯聯合創始人,也是商湯創始人湯曉鷗的學生,是國際上最具影響力的視覺算法開源項目 OpenMMLab 的主導發起人。在大模型時代,他帶領了書生 · 浦語 InternLM 開源大模型體系以及 OpenCompass 司南大模型評測體系的研發工作。

林達華預估,第一季度左右,各家都會對大模型上下文視窗兆級能力 " 亮劍 "。

同時,他表達了與月之暗面同樣的态度,即大海撈針其實沒有那麼難。

難的是海裡不止一根針,應有無數的碎片化信息藏在各個地方,(大模型)把所有東西串接一起,做比較深層次的結論。

就像讀福爾摩斯偵探小說,讀完後綜合判斷兇手是誰——這就不是一個簡單的檢索問題。

近期,各家大模型于長文本賽道上卷生卷死,但是否應把它作為最主要的方向去打磨,大家有不同的判斷。

林達華點出,應該要評估衡量超長文本能力的計算代價," 無損長上下文視窗,每一次響應都是很昂貴的過程,對應用來說,這個性價比是不是最理想的?我覺得值得探讨。"

長文本相關問題只是林達華表達自己思考和見解的一小個片段。

在這場大模型前沿論壇上,他以業界躬身入局者的身份,回望過去 " 群模亂舞 " 的一年,總結出大模型賽道的四點現狀:

OpenAI 引領技術潮流,Google 緊緊追趕,Claude 異軍突起;

上下文、推理能力、更高效的模型架構是技術探索的重點方向;

輕量級模型嶄露頭角;

開源模型快速發展,開放生态已成氣候。

林達華還表示,大模型時代,技術演進有兩股主要的驅動力量:

一是對 AGI 的追求,對 Scaling Law 的信仰;

二是對大模型帶來新一次產業變革的憧憬。

除此之外,更詳細的回望和前瞻性觀點,在林達華口中一一道來。

模型架構:從追求參數到追求更高效的 Scale

Transformer 架構對計算資源的消耗巨大。

前幾日的黃仁勳與 Transformer 七子路邊對話中,Transformer 作者 Aidan Gomez 語氣堅定," 世界需要比 Transformer 更好的東西(the world needs something better than Transformers)"。

業界已經開始從追求參數,過渡轉換為追求更高效的規模。

其中,MoE值得關注,業界同時在探索 Mamba 模型等,以低復雜度的注意力架構更高效地處理上下文。

訓練數據:從追求數量到尋求規模化構造高質量數據的路徑

訓練數據包括三要素:

規模、質量、多樣性。

在規模方面,早在 ChatGPT 之前,DeepMind 等研究報告已指出訓練數據要和模型參數同步增長。

而訓練數據的質量對模型水平影響很大,低質量數據對模型可能產生破壞性影響。增強數據的知識密度,能帶來更高的訓練效率。

此外,好的數據集是非常多樣化的,均衡分布在充分大的語義空間中。

互聯網語料數據的分布極不均勻,存在大量低水平重復的語言模式,可能帶來模型能力的塌縮,"10% 的帶有重復模式的數據注入到訓練集裡,有可能會使得模型降級到原來 1/2 的體量。"

合理的 resampling(重采樣)策略能大幅度降低其負面影響。因此,業界也在從追求訓練數據數量,過渡向到尋求規模化構建高質量數據。

多模态:多模态融合将成為重要趨勢,技術探索仍在路上

多模态融合将成為重要技術趨勢,但技術探索仍在路上。

相比語言,多模态模型的訓練多了一個重要維度,即影像和視頻的分辨率對多模态模型最終的性能表現有重要影響。

如果使用非常高的分辨率進行多模态的訓練和推理,模型能夠得到巨大提升,但高分辨率會帶來高計算成本。

" 如何在高分辨率和合理計算成本之間取得最佳平衡,這為架構研究帶來了很大的創新空間。"

智能體:大模型應用的重要形态,但需要核心基礎能力的支撐

要讓大模型真正進入到應用的場景和生產的場景的時候,它需要跟系統、跟場景、跟裡面所有的事情互動。因此,需要給大模型裝上手腳,然後就能不斷地發出指令做出反饋,這就是一個智能體,這就是場景應用價值的系統。

智能體并不是一個簡單的流程化過程。

它需要建立在一個非常堅實的基礎模型上,具有很強的指令跟随能力、理解能力、反思能力和執行能力。如果這些能力都不具備,其實串接在一起仍然不然獲得你所理想中的那種智能體的能力。

這裡面是實驗室把智能體具像化,智能體不一定是機器人,它可以是各種軟體系統。

計算環境:雲側還在指數式成長,端側即将迎來黃金增長期

芯片進入到後摩爾定律時代,未來算力會變成體量的拓展,越來越多的芯片連接在一起,建成越來越大的計算中心,支撐對通用人工智能的追求。

最終瓶頸不再是芯片,而是能源。

現在,小規格的大語言模型已具備較強性能水平和實用可能性,優秀的模型越做越小,可以進入到手機直接運行。

林達華表示,随着端側算力快速增長,端側即将迎來黃金增長期,雲端協同将成為未來重要趨勢,由雲側計算建立天花板,端側計算将支撐用戶使用大規模放量。

國内外差距:和 GPT-4 真正差距是推理能力

國内前列的模型在主客觀表現上都超過了 GPT-3.5。

但同時需注意,國内大模型與 GPT-4 的真正差距在于推理能力。

林達華稱,特别是随着推理難度的提升,GPT-4 和其他模型,重量級模型和輕量級模型逐漸拉開差距。相比常識推理、演繹推理,歸納推理是差距最大的類型。

在對談中,林達華還表達了對國内大模型落地的看法。

觀國内當下的最大的優勢,是應用場景非常非常多。

如果有套生态,能夠讓大家用大模型去探索在哪些地方能用,哪些地方不能用,在應用上的探索速度和體量可能更快。

不過,他同時表示:

不能因為我們在應用落地上的繁花似錦,就掩蓋我們去思考另一個問題——歸于最終,還是要提升創新能力和原創水平。

—  聯系作者  —

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們