小米大模型，不搞“ChatGPT”

今天小編分享的财經經驗：小米大模型，不搞“ChatGPT”，歡迎閱讀。

圖片來源 @視覺中國

文 | 深燃，作者 | 金玙璠、賀樹龍，編輯 | 賀樹龍

ChatGPT 上線半年後，一場大模型追逐戰繼續在太平洋兩岸上演。

由 OpenAI、微軟和英偉達組成的聯盟，正在太平洋東岸玩命狂奔。今年 3 月以來，中國科技公司緊急跟進，百度、阿裡、商湯、科大訊飛相繼推出 " 類 ChatGPT" 產品，騰訊、華為、京東公開表示正在跟進大模型，都想抓住這個比互聯網時代還 " 大十倍 " 的機會。

" 百模大戰 " 當前，作為國内大型科技企業的小米，卻顯得格外冷靜。

小米掌門人雷軍說，小米正在研發一些技術和產品，等打磨好了再給大家演示。小米集團總裁盧偉冰稱，小米目前擁有超過 1200 人的 AI 團隊，會積極擁抱大模型，與業務深度結合，但不會像 OpenAI 一樣去做通用大模型。

這些信息都加深了外界的疑問：小米會加入 " 百模大戰 " 嗎？

小米集團 AI 實驗室主任王斌博士告訴深燃，小米自己會去自研通用大模型，但不會單獨發布一款類 ChatGPT 產品，" 也不會發布一個 PPT，或者演示幾個例子，就說我們有大模型了 "，而是自研大模型最終會由產品帶出來。

這是繼小米官宣大模型團隊後，首度對外披露大模型的路線和進展。今年 4 月 14 日，小米宣布大模型團隊由栾劍帶隊，向王斌匯報。王斌曾在中科院從事了 20 多年 NLP（自然語言處理）相關的研究和開發工作，2018 年加入小米，2019 年起負責 AI 實驗室。AI 實驗室是小米 AI 戰略的核心部門。

曾經做過對話大模型的小米，在通用預訓練語言大模型上，是少有的理智派。王斌透露，目前專職大模型團隊 30 多人，不會馬上極速擴張；這個團隊的目标還是通用語言大模型，第一步的目标基座模型參數在幾百億，然後會視前期爬坡結果，再決定下一步投入。

" 從研發出大模型到落地還有很長的一段距離，是否能找到合适的重要場景是很多大模型公司的痛點。" 在王斌看來，小米的優勢是有足夠多的現成的大模型落地場景，包括小愛同學、loT、自動駕駛、機器人等等，豐富的應用場景也能夠反哺大模型的能力。

小米不缺場景，但要訓練出大模型，數據、算力、人才的積累缺一不可。王斌說，小米在人才上有一定儲備，算力和數據量方面的挑戰較大。一方面，算力需要克服系統級的挑戰，且要做到訓練成本可控；另一方面，高質量數據的獲得、清洗，都要花費不少時間和成本。

在新一輪 AI 大模型浪潮中，小米 AI 團隊為什麼不發布 " 類 ChatGPT 產品 "？小米是怎麼判斷大模型的技術路線、技術難度的？日前，深燃總編輯賀樹龍和小米技術委員會 AI 實驗室主任王斌進行了一場對話。以下是核心内容：

小米大模型：團隊 30 人，不發 " 類 ChatGPT"

深燃：4 月 14 日，小米任命栾劍為大模型團隊負責人，向你匯報。能否介紹下小米大模型團隊是怎麼誕生的？

王斌：大模型團隊是 4 月份宣布的，但在這之前已經開始運作。

去年 11 月 30 日，OpenAI 發布 ChatGPT 後，我們一堆人快速注冊賬号，在上面開始玩。ChatGPT 确實很颠覆，我們做了這麼多年 AI，它的很多能力超出了我們研發人員的預期。

很快，我們就組織了多個内部大模型交流群，讨論大模型的技術，以及它對機器翻譯、人機對話、智能問答、客服會產生哪些颠覆性的影響。早期參加研讨的很多人，後來都成了專職大模型團隊的重要成員。

深燃：小米大模型團隊會不會來得有點晚？

王斌：對于大模型，我們屬于理智派。

在 ChatGPT 誕生之前，小米内部做過大模型相關的研發和應用，主要是預訓練＋下遊任務監督微調的方式來做人機對話，模型的參數在幾十億級别。當然，這類模型并非現在所說的通用大模型。

我們非常清楚，通用大模型的研發和應用是一個長期的工作，不是早晚的問題。我們是按照自己的時間規劃和步驟在走，當時覺得時間點到了，就做了團隊發布。

深燃：大模型團隊有多少人？有繼續擴張的計劃嗎？

王斌：主力團隊目前有 30 多人。我們目前是先按照人才、數據、模型、算力、評測、產品這幾個方面去籌備，等到了一定階段再逐步調整或擴張。

我們目前不會馬上擴大人數，比如一下招到 100 人。因為在積累能力爬坡階段，可能招這麼多人都不知道怎麼安排，反而是一種浪費。

随着大模型相關信息的不斷公開，資本和人才的不斷湧入，大模型領網域的發展非常快，大家的看法變化也很大。前不久 ChatGPT 剛出來時，大家覺得，實現類似的大模型基本不可能，但是慢慢地，很多人覺得可能性很大，還有一些人認為，不需要那麼大規模的模型就可以滿足很多產品的需求。大家的投資力度，差異也特别大。有些人可能覺得團隊至少要幾百人，有些人認為不需要。

深燃：接下來有沒有一些階段性的規劃，什麼時候對内測試和對外發布？

王斌：跟其他公司不太一樣，小米天生帶着產品的屬性，我相信小米大模型出來的時候，是由產品帶着出來。

我們内部有可能會在 Q3 之前測試。不過，這也不是一個必然的節點。

深燃：也就是說，小米不會發布一個類 ChatGPT 產品？

王斌：對，我們不會發布一個 PPT，或者演示一下我們有大模型了。應用場景豐富是我們最大的優勢。小米大模型會跟場景結合得更緊密，肯定是圍繞產品的節奏去做相應的發布規劃。

深燃：除了人力之外，小米做大模型在算力方面的成本大概是多少？

王斌：我們屬于中等規模的投入，會視前期爬坡的結果，再決定下一步投入。

我們的基本判斷是，适用于小米產品和業務的模型，參數可能在幾百億，會比千億規模低，用于訓練的機器的投入大概是幾千萬人民币級别。

深燃：之前小米做的幾十億參數級别的模型，現在怎麼樣了？

王斌：去年發布的 ChatGPT 是大模型的一種，叫通用預訓練語言大模型。但大模型本身很早就出現了，大家有不同的路線、做法。

我們較早就開始跟進大模型，當時做的是一個對話專用模型，大概是 28 億到 30 億的參數。它是在預訓練基座模型的基礎上，通過對話數據的微調來實現的，并不是現在的通用大模型，而是專用于人機對話，比如，可以提高小愛同學對話的流暢度、多樣性，讓它可以聊下去。後來這個模型上線到小愛，進行了小規模上線測試。

所以，小愛同學裡已經用到了 AIGC，只不過，我們在產品層面，沒有全部使用這個大模型，而是利用傳統模型和對話大模型的互補性，将兩個混合使用。

小米的通用大模型在落地產品時，很可能也是這種混合模式。傳統模型處理得非常好的問題，就交給傳統模型。大模型就解決它擅長的問題，例如一些小概率事件或是長尾對話。

現在出來的通用大模型，在對話水平上，明顯高于之前的對話專用大模型，所以這部分團隊也全都轉到通用大模型上了。這個團隊跑通過整個對話大模型的訓練過程，爬過一些坑，加上數據的積累，有一定優勢。

小米大模型：場景占優勢，數據是難題

深燃：這段時間以來的技術進展非常迅猛，國内大模型在密集發布，會因為進展慢而焦慮嗎？

王斌：我曾經有一段時間比較焦慮，因為老不下場做就會有點慌，你就會想，" 别人怎麼進展這麼快，一下子就做出來了？" 現在我們下場去做了，也就不焦慮了。

據說，中國現在是 " 百模大戰 "，已經發布了 80 多個大模型，有些提供了内測，有些只是 PPT 發布。有些模型的效果還是不錯的，光從發布的水平看，我們現有的自研大模型的水平，看上去也不比很多模型差。但我們不急于做對外發布。第一，對于小米這樣的公司來說，沒有太大意義。第二，我們還是希望圍繞產品，把自研模型做得更好一些，再一同發布。

深燃：你認為國内公司的大模型有機會趕上 OpenAI 嗎？差距有多大？他們喜歡用三個月、六個月來形容。

王斌：目前來看，OpenAI 肯定是走得非常靠前的，它投入時間早，在人才、數據、算力、工程、產品等方面都有非常強的積累。從國内的情況看，我感覺目前和 OpenAI 還是有一定差距，有人說是三個月、六個月，也有人說是一年、兩年。時間上，真不好說。

因為怎麼評價大模型，本身就是個挺難的問題。現在出現了各種大模型的排行榜，但目前都沒有得到大家的一致認可。沒有真正的評價标準，那麼談三個月、六個月趕上，也就是個拍腦袋的說法。

至于國内有沒有可能追上 OpenAI，我早期比較悲觀，覺得幾乎不可能，但随着各種開源方案、各種團隊和資本的湧入，我的判斷更樂觀一些。我認為，國内有機會跟 OpenAI 縮小距離，去接近甚至在很多場景超過它。

大模型看上去不像芯片有那麼高的門檻，通過人才、數據、算力等的不斷積累和優化，是有可能不斷縮小差距的。

深燃：國内哪些類型的公司搞大模型更有優勢？小米的機會在哪裡？

王斌：不管大公司還是中小的創業公司，都有各自的生存空間。大模型是一個生态，并非一家獨大就能通吃，生态上的所有公司，包括做算力的、做數據的、做應用的，還有真正做大模型的公司，都有各自的機會。

像小米做大模型，有應用場景的優勢。我們認為，大模型跟場景的結合會是一個巨大的機會。

因為如果只是發布大模型，沒人用，那不一定能通過滾動快速發展起來。而我們可以馬上落地到場景，通過不斷迭代，在這些場景充分發揮出大模型的威力。

雖然我們目前只整合了一支 30 多人的主力團隊，但實際上外圍還有非常多的人。整個 AI 實驗室，有 NLP 背景且在做具體應用的，就有一百多人，包括知識圖譜、機器翻譯、人機對話、智能客服、智能問答。他們都是具有大模型基礎思維以及相關技術的人員，正在從各自應用的角度推動對大模型的探索。

王斌

深燃：小米在 NLP 研究上的積累，對大模型的價值有多大？

王斌：這在業界存在兩種說法。一種說法是，我們這些人可能沒活幹了，AI 革了自己的命，特别是做 NLP 的人可能就沒飯碗了。還有一種說法是，畢竟大模型是從 NLP 幹出來的，做 NLP 的人有先天優勢。

這兩種說法都有一定道理，但畢竟涉及到我的飯碗，我更傾向于後一種說法。

大模型原本在各個領網域都有探索，包括視覺、語音、NLP。但為什麼是在 NLP 這個領網域首先突破，我相信這裡面有本質的原因。我理解至少有兩點：第一是語言數據的豐富性和易獲得性，第二，語言數據背後隐含着非常豐富的反應人類思考過程的知識。

所以我相信，在 NLP 領網域有多年積累的人，對大模型的理解和改造能力有一定的先天優勢。小米大模型團隊的成員，很多原來是做 NLP 方向的。國内做大模型非常不錯的幾家創業公司，也是從 NLP 領網域出來的。

深燃：小米攻克大模型目前的難點有哪些？怎麼克服？

王斌：首先我還是想說，大模型本身有非常巨大的挑戰。

一項巨大的挑戰是技術的不确定性。我們看過一些報道，甚至 OpenAI 團隊自己也不十分清楚大模型背後的真正原理，如果再做一次，對是否能夠出現同樣的 " 湧現 " 結果也沒有把握。我相信這一點上 OpenAI 講的是實話，由于技術上有非常大的不确定性，所以有投入不能保證一定能訓練出滿足預期的大模型。

高質量數據的積累也是一項挑戰。大家一般認為，大模型需要極大規模高質量的訓練數據。網絡上公開得到的數據，質量總體比較差，所以數據的獲取、清洗，都是比較大的挑戰。

另外的挑戰當然是算力。首先，并不是說有這麼多卡就能夠訓出來，怎麼能夠用好這些卡本身就是一個系統級的挑戰。其次，因為在訓練過程中可能會犯錯，可能錢燒沒了，什麼都燒不出來，所以要看你有沒有能力用可控的成本把大模型訓練出來。

實事求是地說，目前數據和算力的挑戰還是比較大的，尤其是大規模的高質量數據。經過前面一段時間的爬坡，我們現在基本有把握，只要數據到位，利用現有的算力，我們大概能知道多少天能夠訓出一個還可以的基座模型。

深燃：現在大模型訓練的成本降低了嗎？

王斌：一方面，試錯的成本比以前低了。因為大模型訓練是可能走彎路、會失敗的，但是随着各種信息的公開，現在可能能很快找到訓練的正确方向。另一方面，很多雲計算、芯片等公司，還有很多創業公司，都在提供更低成本的大模型訓練和推理服務。随着整個生态進一步發展，我相信訓練的成本會不斷降低。

大模型怎麼影響小米業務？

深燃：能否詳細介紹下你負責的小米 AI 實驗室？

王斌：在 2016 年 " 阿爾法狗 ( AlphaGo ) " 橫空出世後，雷總第一時間推動了 AI 團隊的建設。AI 實驗室于 2016 年正式成立，我從 2019 年開始負責。

原來 AI 實驗室隸屬于人工智能部。後來人工智能部合并到集團技術委員會，現在 AI 實驗室是技術委員會的直屬部門。

AI 實驗室現在的團隊規模在 350 人左右，下屬六個方向，分别是機器學習、自然語言處理（NLP）、計算機視覺、聲學、語音和知識圖譜。

大模型出來後，AI 實驗室設立了專職大模型團隊，我們現在的重點是語言大模型，但也在關注跨模态大模型。

深燃：盧總（小米集團總裁盧偉冰）說小米 AI 團隊目前超過 1200 人。除了 AI 實驗室，小米内部還有哪些部門跟 AI強關聯？

王斌：AI 實驗室之外，還有小愛同學團隊，這兩個團隊都在技術委員會下面。

技術委員會之外，還有很多部門都有比較大的 AI 團隊，包括汽車部的自動駕駛部，手機的相機部、軟體部，此外，在互聯網業務部做的用戶增長、廣告推薦，都跟 AI 相關。

總之，AI 相關的團隊有些在業務部門，有些在技術委員會，總數大概 1200 人，如果再考慮一些小團隊，這個數字我個人覺得還更大一些。

深燃：小米 AI 實驗室在小米 AI 戰略裡是什麼角色？

王斌：AI 實驗室是集團層面的 AI 技術研發和輸出部門。通俗地說，我們是面向全公司輸出 AI 技術。

我們曾經把 AI 實驗室比喻成集團層面 AI 技術的 " 試驗田 " 和 " 彈藥庫 "。因為 AI 發展迅速，AI 實驗室會研發一些中長期的前沿技術，圍繞小米業務做儲備，在集團需要的時候輸出 " 彈藥 "。

在 AI 技術層面，我們在公司裡肯定是儲備最齊全的，在行業裡也是非常有實力的。

深燃：小米 AI 實驗室有哪些重要的研究成果？

王斌：我們 AI 實驗室的理念更強調技術和場景的結合，目前還沒有把發表論文當作 OKR。所以，我從中科院（中國科學院）來到小米後，自己感覺最大的成就不是某個單點的技術的進展，而是技術和產品的巧妙融合。

小米是一家 To C 的公司，我們的 AI 能力輸出暫時不直接對外輸出，而是通過公司的產品輸出。我們的成果非常多，包括小米手機中的很多拍照和相冊處理算法，小愛同學中涉及的語音、NLP 等算法，小米商城的推薦、搜索、客服系統中的 AI 算法。

我舉個例子，我們在手機上開發了離線翻譯功能，比如出國後，很多情況下網絡沒有那麼好，這時候打開小米手機的翻譯功能，不用走雲端，離線狀态下，實時性、隐私性和翻譯效果都比較好。這個功能的實現和應用都不算容易，我們做了很多很多翻譯效果和性能的優化工作。

在小米内部，并不是我們自己的技術，就會優先用，内部技術也要和外部技術去公平去 PK，只有勝出才能活下來，應用到產品。

深燃：以 ChatGPT 為代表的大模型技術，會對小米的哪些業務帶來影響？

王斌：大模型最強的能力，簡單來說就是它更理解人，它顯然能優化人機互動的方式。小米的小愛同學、手機作業系統 MIUI、汽車的座艙、IoT、機器人，都是應用大模型的典型場景。

深燃：能不能以小愛同學舉例說說。

王斌：應用到小愛同學上，能同時做到兩件事。一類是讓不可能變成可能，相當于有了新的功能。比如，我讓小愛制定一個出行計劃或者訂餐等等。原來的技術能力沒有達到，用戶稍微換一種說法，它就亂套了。但有了大模型的支持，它對人的話語的理解更深了，這樣就可以完成復雜任務，這類應用就有可行性了。

還有一類是對原來功能的增強，相當于錦上添花。因為人類表達的跳躍性、多樣性，原來在小愛同學人機互動的過程中，最大的問題就是遇到小概率事件，我們叫 Corner Case，通常會采用保守策略，讓小愛說，" 我回答不了 "，" 我還在學習 "。這種托底回答也能把對話進行下去，但體驗不好。但大模型技術能把對話進行得更長，而且大幅度提高用戶滿意度。

深燃：大模型對智能家居的影響大嗎？

王斌：按照我的個人理解，大模型至少能在互動能力上，提高智能家居的使用體驗。

現在雖然有很多設備号稱 " 智能 "，但表現上經常像 " 智障 " 導致使用率不高。比如說，打開空調或者調控空調溫度，如果說法跟标準指令不一樣，就可能就無法控制 IoT 設備。

但大模型來了以後，對人類語言的理解更深了，很多情況下表達方式各種各樣，大模型能把用戶的表達翻譯成機器能聽得懂的指令。這會帶動更多人使用智能設備，讓整個生态能更快成長起來。

深燃：除了現有業務的提升，還有哪些事情是以前小米做不到，但有了大模型以後有可能去做的？

王斌：我們會讓大模型和這些業務做深度的協同，當然，除此之外，我們也在尋找更多可能性。

我們團隊寫了很多文章在公司内部推廣大模型，包括大模型的概念和技術發展，教大家怎麼用 ChatGPT 來解決業務問題。雷總已經要求每個部門都要學習大模型，要求大家具有基本的大模型思維，思考怎麼跟業務結合。

更多精彩内容，關注钛媒體微信号（ID：taimeiti），或者下載钛媒體 App