今天小編分享的互聯網經驗:小米AI大模型MiLM-6B首次曝光:64億參數量,此前稱不單獨做ChatGPT,歡迎閱讀。
小米總部園區
在小米公司 CEO 雷軍演講前夕,其研發的人工智能(AI)大模型產品悄然現身。
钛媒體 App 獲悉,8 月 11 日,小米公司開發的大規模預訓練語言模型 MiLM-6B/1.3B 登陸代碼托管平台 GitHub,參數規模最高達 64 億,而且現身在 C-Eval、CMMLU 基準評測榜單。
截至當前,小米大模型 MiLM-6B 在 C-Eval 總榜單排名第 10、同參數量級排名第 1,平均分為 60.2 分,超過了阿裡雲 Qwen-7B、OpenAI 研發的 ChatGPT(今年 5 月數據)等,而 MiLM-1.3B 排行第 30 名,平均分 45.8 分,接近谷歌投資的 Anthropic 公司的 Claude 1.0 版本大模型。
這是小米大模型產品的首次曝光,也是小米史上首個 GPT 大模型產品亮相。
事實上,随着 ChatGPT 風靡全球,今年 4 月 14 日,小米公司宣布成立小米 AI 實驗室大模型團隊,由栾劍帶隊向王斌匯報。據悉,AI 實驗室是小米 AI 戰略的核心部門,而大模型負責人王斌曾在中科院從事了 20 多年 NLP(自然語言處理)相關的研究和開發工作,2018 年加入小米,2019 年起負責 AI 實驗室。
小米 CEO 雷軍當時表示,公司正在研發一些技術和產品,等打磨好了再給大家演示。小米集團總裁盧偉冰稱,小米目前擁有超過 1200 人的 AI 團隊,會積極擁抱大模型,與業務深度結合,但不會像 OpenAI 一樣。
今年 6 月,王斌對外透露,小米會去自研通用語言大模型,但不會單獨發布一款類 ChatGPT 產品。他表示,小米第一步的目标基座模型參數在幾百億,而且小米大模型将會落地小愛同學、loT、自動駕駛、機器人等現有場景中,并利用豐富的應用場景反哺大模型能力。
成立僅僅四個月後的今天,小米公布了大模型產品—— MiLM-6B,并在 C-Eval 和 CMMLU 基準評測上均取得同尺寸較好效果。
其中,在 C-Eval 評估中,MiLM-6B 的平均得分為 60.2,在不同學科和難度級别(如 STEM、社會科學、人文學科等)得分從 42 分到 71.7 分不等。在 CMMLU 評估中,MiLM-6B 在零樣本和五樣本測試中的平均得分分别為 60.37 分和 57.17 分,表現出良好的知識和推理能力。
據悉,C-Eval 榜單是清華大學、上海交通大學和愛丁堡大學共同構建的綜合漢語模型評估套件,而 CMMLU 則是綜合漢語模型基準。
預計小米将會于 8 月 14 日舉行 2023 雷軍年度演講,但目前雷軍暫未透露是否會發布 MiLM-6B 大模型技術。
钛媒體 App 向團隊詢問關于 MiLM-6B/1.3B 是否開源、產品是否已經落地内測等問題,截至發稿前暫未得到小米官方回復。(本文首發钛媒體 App,作者|林志佳)