今天小編分享的科技經驗:小米大模型首度曝光,華為小藝搶先交卷,手機GPT時刻近了?,歡迎閱讀。
智東西(公眾号:zhidxcom)
作者 | 雲鵬
編輯 | 心緣
手機廠商們的大模型之戰,山雨欲來。
剛剛,小米大模型突然亮相刷屏,并在 C-Eval、CMMLU 兩個大模型測試平台中分别取得了第十名和中文向第一名的成績,其 C-Eval 排名在阿裡雲的通義千問之前。
▲ C-Eval 榜單
要知道,C-Eval 和 CMMLU 是目前業内公認的權威中文大模型基準測試,主要考察的就是大模型在中文領網域的綜合知識儲備和語言理解能力。
▲ CMMLU 評估榜單
就在上周,華為的語音助手小藝也融入了自家盤古大模型的部分能力,用語音助手寫個文章摘要、會議邀請郵件或者用自己的照片做個性化設計,都已經成為了現實。
國内手機廠商們在大模型這條賽道上,頗有 " 不鳴則已,一鳴驚人 " 的架勢。一個已經落地應用,一個首次亮相就刷屏霸榜。
此前不論是自研芯片還是充電快充,手機廠商們似乎都是将 " 新技術 " 推向消費市場,讓普羅大眾都開始接觸新技術的 " 排頭兵 "。
在基于大模型的生成式 AI 浪潮中,手機廠商們勢必将迎來一場新的戰事。
海外谷歌蘋果都已經開始對自家的智能語音助手 " 動刀 ",醞釀大模型的應用,國内這邊,在小米大模型成績公布之前,小米 AI 實驗室主任王斌就已經對外講述了小米在大模型領網域的規劃和進展,小米 CEO 雷軍和小米總裁盧偉冰也多次在公開場合談及小米大模型及相關布局。
榮耀這邊,其 CEO 趙明提到榮耀已經就網絡大模型方面的需求跟互聯網公司進行合作,而看似低調的 OPPO 和 vivo 實際上也在 AI 領網域布局多年,分别有 AI 模型在一些中文基準測試中名列前茅,并與一些 AI 大廠有所合作。華為這邊,小藝已然落地。
雖然表面上波瀾不驚,但手機廠商們的大模型之戰已一觸即發。各家明修棧道暗度陳倉,一場激烈的 AI 技術博弈好戲,或許即将上演。
一、小米組建大模型團隊,榮耀 OV 或采用 " 自研 + 合作 " 模式
手機廠商用上大模型,無非兩種方式,其一,自己做大模型自己用,其二,别人做大模型我來用。
目前來看,在華為、小米先行一步,自做自用之外,榮耀、OPPO 和 vivo 并沒有大模型相關布局的官方信息流出,其中 OV 兩家均與其他廠商在大模型上有相關合作信息,但具體兩者将采用什麼方式,仍未可知。
首先我們來看今天刷屏的小米,其實小米的智能語音助手小愛同學,在各家的語音助手中應該說是名氣最高的,也是用戶範圍最廣的,小米的各類 IoT 設備幾乎都已經接入小愛同學,而小米的 IoT 生态設備數量,又是各家智能手機廠商中最多的,小米曾明确表示小米 AI 大模型未來可能會與小愛同學結合。
不論是在财報電話會中,還是在一些公開采訪中,小米相關高管都對于大模型有着積極表态,并詳細解釋了小米在大模型方面的布局和規劃。
今年 4 月,小米 CEO 雷軍親自發文稱,小米對于大模型技術将堅決擁抱,次月财報電話會中,小米總裁盧偉冰宣布公司已組建 AI 實驗室大模型團隊,AI 領網域相關人員超過 1200 人。
小米這個大模型團隊的負責人是栾劍,向小米 AI 實驗室主任王斌匯報,而王斌曾在中科院進行了 20 多年的 NLP(自然語言處理)相關研究,于 2018 年加入小米。
在接受深燃采訪時候,王斌提到,他們團隊的目标是通用大語言模型,參數規模在幾百億,用于訓練的設備投入是幾千萬人民币級别。而小米大模型落地產品會采用 " 混合模式 ",傳統模型和大模型各自解決其擅長的問題。
根據王斌所說,在 ChatGPT 之前,小米就做過大模型相關研究和應用,不過模型規模在幾十億級别,也并非通用大模型,主要是對話專用模型,用于人機對話。
小米這邊,高管頻繁透露信息,榮耀這邊,其 CEO 趙明也沒少在采訪中透露榮耀對于生成式 AI 以及大模型的看法。
趙明在上海世界移動通信大會提到榮耀正在就網絡大模型方面的需求跟互聯網公司進行合作,當時他們已經在和有意向的公司進行接觸。
目前百度的文心一言、阿裡的通義千問、訊飛的訊飛星火都是國内互聯網大廠和 AI 大廠推出的幾個三方大模型,做自研大模型對于剛剛成立三年的榮耀來說并不是最重要的事,将市場份額和出貨量做上去顯然更為關鍵,因此合作可能會是榮耀應用大模型技術的方式。
OPPO 這邊,OPPO 中國區總裁劉波曾在接受采訪時提到,OPPO 内部在思考大模型在手機端的應用。
今年 4 月,阿裡雲宣布将與 OPPO 安第斯智能雲聯合打造 OPPO 大模型基礎設施,基于通義千問完成大模型的持續學習、精調及前端提示工程,建設服務于 OPPO 終端用戶的 AI 服務。
從華為小藝的例子來看,将通義千問進行精調、優化,做出一個能夠用于 OPPO 智能語音助手中的輕量版模型,是可行的。
不過有小米相關人士透露,OPPO 和 vivo 可能也在做自己的大模型。
對此,我們也能從 OV 此前的一些動作中看出一些迹象。例如 OPPO 的小布助手團隊此前一直在 AI 技術領網域開展着大量研究,包括語音識别、語義理解、對話生成、知識問答系統、開放網域聊天、多模态等等,而這些都是生成式 AI 相關的關鍵技術。
小布助手團隊此前對預訓練模型進行過探索和落地應用,自研了一億、三億和十億參數量的預訓練模型 OBERT,OBERT 也曾一度躍居中文語言理解測評基準 CLUE1.1 總榜第五名、大規模知識圖譜問答 KgCLUE1.0 排行榜第一名。
去年 OPPO 未來科技大會上,小布作畫功能就用到了生成式 AI 技術,可以通過用戶描述、上傳的圖片創作圖畫作品。
vivo 這邊,其 AI 團隊在今年 5 月研發了面向自然語言理解任務的文本預訓練模型 3MP-Text,在中文語言理解測評基準 CLUE 榜單上,3MP-Text 拿到了 1 億參數模型效果排名同規模第一。
二、大模型落地手機,智能語音助手成為嘗鮮排頭兵
手機廠商們這樣積極踴躍地擁抱大模型,是要做什麼?目前已經能夠确定的一件事,就是将大模型用在各家的智能語音助手中,讓大模型成為自己手機的 " 系統級 " 能力,讓手機的智能化程度更高,小助手們不再 " 智障 "。
三星這邊,正在考慮将手機、平板的默認搜索引擎從谷歌更改為微軟的新必應,而新必應則支持 AI 聊天。谷歌在 5 月的 I/O 大會上發布了四個不同參數規模的新一代大語言模型 PaLM 2,其中最小的 " 壁虎 " 大模型就可以運行在手機上。
蘋果這邊,有外媒曝料稱其正在為 Siri 開發項目代号為 "Bobcat" 的 AI 新功能,而新項目的技術框架被稱為 "Siri Natural Language Generation",如果曝料屬實,Siri 與生成式 AI 技術的融合也将成為必然。
大模型在智能手機語音助手中應用的潛力,是有目共睹的。
對于消費者來說,從現有的智能語音助手與大模型結合的案例中我們能清晰地看到,大模型能力的融入,解決了用戶養成語音助手使用習慣中最大難題之一——不夠自然的對話、無法随心所欲的自然交流。
簡單來說,就是讓智能語音助手從好玩、新奇變得好用,甚至成為一種 " 習慣動作 "。大模型讓智能語音助手真正能夠讀懂、聽懂我們,其易用性的提升是極為顯著的。
在一些終端廠商看來,ChatGPT 等大模型的應用,更多集中在創意類文案寫作、信息整理、問答聊天、文章摘要等,但語音助手的定位是 " 智能私人助理 ",從設備控制、個性化的咨詢服務提供到提升我們日常辦公的效率,智能語音助手在消費場景中的應用要更加廣泛。
與此同時,相比 OpenAI 的 ChatGPT、谷歌的 Bard 這些生成式 AI 聊天機器人,智能語音助手會成為終端廠商的 " 系統級 " 能力,從語音對話、圖文識别、服務建議到設備互聯管理。
有相關 AI 專家告訴智東西,系統級能力意味着系統級的入口跟作業系統結合地更加緊密,跟生态的互聯也做到了系統生态底層,這種互聯才是真正高效的,體驗才能做到最好,這種互聯遠非 ChatGPT 與 App 之間一對一的 SDK 調用可以相比的。
此外,不論是華為、小米、榮耀還是 OV,這些廠商都已經開展了廣泛的 IoT 業務布局,而智能語音助手已經成為串聯起他們這些智能設備的關鍵 AI 服務入口,終端廠商可以通過語音助手端大模型的融入,将大模型的能力快速擴展到自家的整個軟硬體生态體系當中,這對于廠商們來說也十分重要。
三、把大模型塞進手機裡,這事難不難?
把大模型用在智能語音助手裡,想到這件事并不難,甚至從 ChatGPT 出現的第一天起,所有做語音助手的公司就都想到這件事了。
但關鍵是,到底怎麼實現?成本與帶來的回報是否成正比?GPT-4 這樣的大語言模型,動辄千億級的參數量,想要用在一部整機功耗僅幾瓦的手機中,技術層面的挑戰要如何解決?
關于這些問題,前文提到的華為小藝的例子中我們或許可以找到一些答案。
總體來看,在智能語音助手上應用大模型,至少要做兩件事,第一,把通用大模型優化出一個适合語音助手使用的版本,第二,在算力和功耗上把這件事跑通。
從華為的例子來看,華為是在盤古 L0 大模型的基礎上,對平時消費者場景中所涉及的數據進行了精調優化,構建了一個 L1 層對話模型,用在了小藝中。
對這些消費者場景,廠商需要構造對應的語料數據,設計讓系統能夠理解和可執行的模型輸出,同時還要給大模型輸入可信的結構化、非結構化知識,從而讓大模型能夠學習到通識、邏輯關系。
ChatGPT 不能幫你設定你的手機或者操控你家裡的各類智能設備,但語音助手需要具備這樣的能力,這也是智能語音助手非常重要的一個功能。
所以廠商還需要通過技術優化實現大模型和系統的有效解析、高效對接,并且針對復雜場景給大模型先 " 培訓學習 ",讓大模型學會這些操控技能,最後再把大模型推理成本和推理時延方面的問題解決好。
做出适合語音助手使用的大模型版本還不夠,為了解決功耗和算力問題,端雲的結合也是比較要的。
如今 ChatGPT 應用程式都是依賴雲端算力,但真正用到語音助手裡,涉及用戶個人信息的使用和處理,勢必需要本地化運行,但完全本地化運行又無法解決功耗和算力不足的問題。
華為是做了不同的大模型版本,有終端側的也有雲側的,根據任務的不同,兩側協同處理。
作為移動芯片廠商的高通此前也一直在重點推廣他們的 " 混合 AI" 理念,其實意思就是移動側生成式 AI 的應用必然涉及端側和雲側的協同。從產業各方的行動來看,這也基本上成為了業内的共識。
當然,在智能語音助手用上大模型,絕對不是我們三言兩語提到的這樣簡單,背後涉及諸多技術以及產業層面的挑戰,從華為的例子中也能略知一二。
不過話說回來,雖然難,但華為恰恰證明了這件事的可行性,并且大模型應用在智能語音助手中,的确可以帶來不少能力上的 " 質變 "。
四、大模型之戰來勢洶洶,數據、算力、人才仍是核心争奪焦點
生成式 AI 席卷千行百業,大模型給手機產業帶來的影響将是深遠的。
對于消費者來說,手機變得更 " 聰明 ",更 " 高效 ",我們終于可以用随意的口語表達享受語音助手提供的服務,比如一些 ChatGPT 上的文本、影像生成能力,智能語音助手也都學會了,智能語音助手用上大模型,必然是有益且備受消費者們期待的。
對于廠商們來說,智能手機以及相關 IoT 設備融入基于大模型的生成式 AI 能力是未來發展的必然趨勢,大模型給這些業務帶來的變化将是顯著且有價值的。
不論是自己做大模型還是合作,這場大模型之戰,每家廠商都不得不重視起來。
當然,對于各家智能手機廠商來說,這股浪潮帶來的挑戰也是顯而易見的,想要真正将這場仗打好,有諸多困難需要克服。
有 AI 產業相關人士告訴智東西,對于要自己做大模型的廠商來說,數據、算力、人才的積累缺一不可,例如大規模的高質量數據獲取和清洗、算力如何克服系統級挑戰、訓練如何做到成本可控。而對于采用合作模式的廠商來說,如何保證更好的端雲協同處理,如何平衡成本和效益以及商業合作模式的探索,都将是他們要面對的。
結語:AI 大模型,手機廠商們的一場硬仗
站在今天的節點上,手機大模型之戰已經揭開帷幕,先出手廠商的已經亮牌,沒出手的廠商也都在醞釀之中,手機大模型之戰暗潮洶湧。
從既有語音助手結合大模型的成果來看,AI 大模型對于智能手機的體驗加持是很明顯的,AI 大模型對于未來手機廠商各條業務線的發展也将會產生深遠影響,AI 大模型必然會成為後續科技產業主要發展的趨勢,也會成為各家關注的重點技術賽道之一。
AI 大模型,無疑是手機廠商們要面對的一場硬仗,但究竟誰能帶來打破產業格局甚至颠覆既有玩法的突破性產品或技術,花落誰家仍未可知。
面向未來,大模型與智能語音助手的結合必将更加緊密,随着後續各路科技巨頭的跟進,智能語音助手的 " 進化 " 浪潮将勢不可擋。未來還會有哪些新的應用場景、新的應用形态和功能湧現出來,都充滿想象空間。