今天小編分享的汽車經驗:隐形在中國大模型產業背後的理想主義者,看智源的另一個角度,歡迎閱讀。
觀點交鋒
中關村國家自主創新示範區展示中心裡人頭攢動,不少人甚至幹脆擠在會場旁邊的過道裡站着聽講,這樣熱絡的景象讓你很難相信這是一場純粹學術會議,然而它在 6 月 9 号和 10 号兩天一直持續出現。
智源大會已經走到第五屆,這場由智源研究院主辦的人工智能大會,從一開始就定位于專業高端,因此你不會在大會上看到任何商業性宣傳和為了廣告商特設的噱頭論壇,哪怕當今涉足人工智能領網域的公司每個都鼎鼎大名。
所有參會的嘉賓都是帶着洞察和觀點——換而言之,幹貨來的。
這次出席智源大會的嘉賓,光是圖靈獎得主就來了 4 位,包括 Geoffrey Hinton、Yann LeCun、Joseph Sifakis 和姚期智,此外還有張钹、鄭南寧、謝曉亮、張宏江、張亞勤以及 Stuart Russell、Max Tegmark 等,每一位都在人工智能領網域如雷貫耳。而風頭正勁的 OpenAI 聯合創始人、CEO Sam Altman 也在 10 号上午的 AI 安全與對齊分論壇上發表了演講。
"AI 内行頂級盛會 ",智源大會的定位名副其實。而大佬們的觀點交鋒則讓智源大會的學術性和知識分子氣質更加彰顯。
Sam Altman 顯然是最受熱捧的明星,他發表主旨演講和随後與智源研究院理事長張宏江的一對一對話吸引了無數目光,他本人随後也在 Twitter 表達了對智源大會邀請的感謝。
Sam Altman 和智源研究院理事長張宏江對話
Sam Altman 的發言圍繞 AI 安全領網域,呼籲國際協同應對 AI 快速發展帶來的潛在威脅,Sam Altman 認為十年之内人類就将擁有十分強大的 AI 系統(AI system)。
ChatGPT 在全球爆火讓 Sam Altman 的發言頗有分量,但這并不意味着大家都一邊倒地認同 OpenAI 的發展道路。在 9 号上午的開幕式演講中,圖靈獎得主也是 Meta 首席 AI 科學家 Yann LeCun 直接表達了幾乎完全相反的觀點:自回歸模型沒有規劃、推理的能力,要想抵達通用人工智能 AGI,則不僅應該在神經水平上模仿人腦,在認知模塊上也要參照人類,Yann LeCun 給出的答案是所謂世界模型。
Yann LeCun 在智源大會上發言
而另一位最近因為從谷歌離職而頗受矚目的大佬,被譽為深度學習之父的圖靈獎得主 Geoffrey Hinton 同樣在演講中給出了自己關于目前 AI 發展的看法——人工神經網絡很快将會超越真正的神經網絡,人工智能對世界危險程度和緊迫性甚至可能超過氣候變化。
Geoffrey Hinton 在智源大會發表演講
類似這樣的觀點交鋒在這兩天近百場報告和圓桌讨論中屢見不鮮,它們無不圍繞着有關人工智能最前沿的命題,最火的當然是大模型,除此之外開源和安全也是熱議的焦點。
整個中國你再也找不出第二個機構能組織如此高規格的會議了,正如智源研究院黃鐵軍院長所說:智源研究院是在中國開展人工智能研究國際合作的第一選擇。
那麼針對上述這些熱點議題,智源做了什麼呢?
多箭齊發的智源大模型系列
智源研究院院長黃鐵軍
黃鐵軍院長在開幕式上宣布了智源在過去一年所取得的階段性成果。悟道 3.0 大模型系列進入了全面開源的新階段。包括了悟道 · 天鷹(Aquila)語言大模型系列、天秤(FlagEval)開源大模型評測體系與開放平台以及悟道 · 視界視覺大模型系列。
其中,悟道 · 天鷹(Aquila)語言大模型支持商用許可協定,滿足國内數據合規需求。在基礎模型之外,還包括 AquilaChat 對話模型與 AquilaCode(文本 - 代碼)生成模型。根據智源研究院副院長兼總工程師林詠華的介紹,在綜合中英雙語的多種客觀及主觀評測的結果(22 個評測集,随機抽取 2 萬多個評測題目),AquilaChat-7B 在僅使用 50% 訓練數據的情況下,目前已經超過同等級的國内外主流開源模型;在綜合了信息分析、跨語言理解、判别評價、知識運用、修改潤色、風格生成、代碼生成、創意生成、安全與價值觀等的中文主觀評測下,AquilaChat-7B 目前達到 GPT-4 約 70% 左右的能力。
天秤(FlagEval)大模型評測體系及開放平台是為了方便全方位評估基礎模型和訓練算法的性能而搭建的,最終目标是實現對基礎模型、預訓練算法、微調算法在自然語言處理、計算機視覺、音頻和多模态四個方面測評的全覆蓋。
天秤(FlagEval)構建了 " 能力 - 任務 - 指标 " 的三維評測框架,目前已經有超過 600 個評測維度,包括 22 個評測數據集在内,一共有 84433 道題目。
天秤(FlagEval)大模型評測體系及開放平台是為了方便全方位評估基礎模型和訓練算法的性能而搭建的,最終目标是實現對基礎模型、預訓練算法、微調算法在自然語言、計算機視覺、語音、多模态及認知能力五個方面實現測評的在全覆蓋。
悟道 · 視界視覺大模型系列系統化解決了當前計算機視覺領網域的一系列瓶頸問題,包括任務統一、模型規模化以及數據效率等,包括:在多模态序列中補全一切的多模态大模型 Emu,最強十億級視覺基礎模型 EVA,一通百通、分割一切的通用分割模型,首創上下文影像學習技術路徑的通用視覺模型 Painter,性能最強開源 CLIP 模型 EVA-CLIP,簡單 prompt(提示)即可視頻編輯的 vid2vid-zero 零樣本視頻編輯技術。
這些大模型的推出凸顯了智源着力打造的大模型進化迭代流水線,這條流水線讓大模型在更多數據和更多能力的助力下源源不斷成長,持續迭代、快速更新,最終無論是技術研究團隊還是產業開發團隊,都将從這條迭代流水線的進化中受益。
除了一系列這次首發的新模型,智源還更新了在今年年初推出的 FlagOpen 大模型技術開源體系,從模型到并行加速技術、推理技術,再到硬體測評和模型測評,最後是數據分析、清洗和标注工具,智源 FlagOpen 平台旨在打造全面支撐大模型技術發展的開源算法體系和一站式基礎軟體平台。
特别值得一提的是在數據集方面,智源已經開源了首個大規模、可商用的中文指令數據集 COIG,第一期開放了總計 19.1 萬條指令數據;二期正在建設最大規模、持續更新的中文多任務指令數據集,整合了 1800 多個海量開源數據集。
觀察智源在這次大會上推出的系列成果,不僅有各種模型,更有關于大模型核心生态和產業鏈上下遊的各種工具。
盡管智源的大模型在性能指标上已經達到了相當先進的程度,但是在林詠華的眼裡,這還不是智源最重要的使命。
智源研究院副院長兼總工程師林詠華
" 和大家比誰的模型更大、更強,這種追求不是智源的使命。我們的使命更偏底層,數據處理技術、數據匯聚、算法評測、模型能力評測,當然還有開源。這種偏基礎的工作,是智源正在做而且目前應該只有我們在做的事情。只有我們在做的事情,就應該堅持下去。" 林詠華說到。
這聽上去幾乎有些 " 理想主義 ",但智源研究院從成立伊始幾乎就是理想主義的代名詞。
攀登人工智能高峰從來是一場長期主義的戰争,在智源規劃的路徑裡,它不僅包括以大模型為代表的信息智能,還有基于強化學習和物理身體的具身智能以及根據神經生物學仿照人腦的類腦智能三種。大模型出現的突破性進展第一次向人們展示了通往 AGI 通用人工智能的可能路徑,但具身智能和類腦智能同樣值得關注——誰能确保下一次的突破不是來自它們?
和這項充溢着理想主義與長期主義色彩的最高目标相比,一項大模型評分的優劣與否就顯得渺小了起來。智源有着更遠大的願景。
人工智能理想主義
僅僅訓練出一個得分頗高的大模型是遠遠不夠的,更重要的是訓練大模型所用的算法和技術。
飛快迭代的技術會讓每一個模型都最終變得過時,但如果最終建立了一個豐沛深厚的科技土壤,讓技術的飛輪能在其中飛速轉動,不斷推出先進的算法,聯動整個產業鏈上下遊有效降低模型訓練的成本,實現對 AI 安全高度的理解與可控,那麼人工智能的前景勢必變得更為堅實有力,與這個宏偉的願景相比,推出多少個大模型,或者某個具體大模型的評分高低這樣的問題就顯得渺小了。
這種宏偉願景,正是智源研究院所追求的。
2021 年 3 月,智源研究院第一次使用了 " 大模型 " 這個詞,揭開了人工智能發展的嶄新篇章。在短時間内,悟道大模型迭代到了第三個版本。
作為平台型、非營利的研究機構,智源力圖營造人工智能的創新生态——大模型是資源耗費巨大的系統工程,如果一項技術被智源研究、驗證并最終開源,那麼整個產業都将随之受益。
智源正是這樣做的。打造大模型基礎基座,通過開源開放來促進整個大模型科研創新,也加速大模型的產業落地。為了這個願景,智源甚至做了許多在外界看來有些 " 費力不讨好 "、甚至舍近求遠的事。
比如智源的大模型采用的是商業許可協定,由于從算法到數據,智源都耗費巨大的資源實現了完全合規,因此企業能夠放心采用智源的模型實現商業化。
眾所周知,大模型目前在版權領網域有諸多争議,原因之一就是用來訓練的數據其來源良莠不齊,智源的底層合規能力正好幫助企業規避了這一最大風險點,其正面影響是不言自明的。
再比如,智源發布的許多開源項目,從 AquilaCode-7B 生成模型到天秤(FlagEval)開放評測平台,都同時支持英偉達和國產的寒武紀、昆侖芯等多種芯片架構,這意味着開發者甚至不需要調整自己的硬體設備就能直接使用它們,智源通過對多種架構代碼和模型的開源,推動着芯片領網域的發展和創新。
為人工智能下一個十年打造大模型的新 Linux 生态,這是智源在大模型領網域對自己的定位,開源是其中非常重要、頗為有勇氣,也是同業界許多人看法相左的一步。但智源的信心頗為堅定,開源開放既是人工智能生态建設的必然選擇,也是推動科技加速創新、產業全面更新的必由之路。
智源在這條道路上已經走了五年,這份有關人工智能的浪漫願景,吸引着同樣理想主義的人才。作為中國最頂級的人工智能研究機構,智源擁有近百位頂尖人工智能專家組成的 " 智源學者 " 陣容,而智源社區更匯聚了逾 12 萬 AI 業内人士。,這讓智源研究院的科研實力在全球範圍内廣受贊譽。
而每年一度的智源大會則已經成為中國乃至全球範圍等級最高的人工智能巅峰盛會,過去四年有超過 500 多位以圖靈獎得主為代表的頂尖 AI 專家在大會上發表演講、參與讨論,來自三十多個國家數萬名專業人士注冊參會。
智源會在大會上發布相關領網域的最新成果,關于人工智能的觀點交鋒也從北京傳遍世界,一屆屆大會過去,圍繞着智源搭建的平台,中國茁壯生長的 AI 生态圈也蔚然成型,這為中國參與大模型之戰提供了最強的助力,中國突飛猛進的大模型事業,智源正是其中或許不為人所熟知、卻異常重要的 " 隐秘支柱。
這何嘗不是對理想主義最好的報償。