今天小編分享的科技經驗:CES觀察:AI無處不在,但大語言模型的主要應用場景仍停留在聊天,歡迎閲讀。
文 / 騰訊科技 郝博陽
2024 年的電子 " 春晚 " 的 CES 落幕了,四天的展會吸引了超過 13 萬觀眾的參與,恢復了疫情前的繁華。很多展台之前都排起等待參觀的長龍,人頭攢動。那些吸引最多人流的站台往往都有個明顯的标籤—— AI。
展會之前,Moor Insights & Strategy 的資深分析師 Anshel Sag 就表示," 在去年的 CES 上,AI 還沒有權力開火,如果你認為 AI 是去年的浪潮的話,那今年它就是海嘯。"
AI 确實如海嘯般洶湧的卷過 CES 的會場。電腦廠商從聯想到 ROG,家電廠商從三星到海信,汽車廠商從奔馳到大眾,幾乎每家大企業的展台中都有一個或大或小的區網域專門介紹 AI 方面的更新。
然而實際體驗下來,從電腦到到小家電之間,AI 化的程度存在着不小的差異,但對于席卷全球的大語言模型而言,幾乎所有的產品都只能算是淺嘗辄止。只能説有了,但很難説它和產品已經有了比較成功的融合。
這次騰訊科技将根據 CES 現場的觀察和與廠商的交流,分别針對 AIPC、手機端 AI、AI 上車、家電 AI 化和機器人這幾個本屆 CES 上 AI 相關性最高的領網域逐一進行闡述。
AIPC:現階段只是能用 AI 的 PC
行業認為,2024 年将成為 AI PC 年,從聯想到 Intel 今年都在講 AI PC 的故事。但在今年的 CES 上,我們看到的更多是像 HP Spectre x360 14 一樣只是裝載了 AI 芯片的 PC;或者是如戴爾 XPS 13、聯想 Yoga Pro 9 等,在 PC 上多設定了一個直接喚起 Windows Copilit 的按鍵而已;走得最遠的,是聯想在端側直接内置了 AI NOW 大模型能力的嘗試。
正如聯想 CEO 楊元慶在 CES 過程中的采訪中所説,當下的 AIPC 還處于 AI Ready 的階段,也就是把硬體提升到支持大語言模型的階段。而現實是,更好的產品 AI 化體驗和 AI 應用的成熟的 AI ON 階段還沒有完全到來。
Dell XPS 13 上的 Windows Copilit 按鍵
手機 AI:半年前發布會上的餅剛熟
手機上的 AI 與系統融合進度也相對緩慢。
在 CES 谷歌的展台上,到處都有 AI 的身影,但還是和半年前 Palm 2 發布會上所帶來的驚喜差距不大。
如魔法相機,用户可以移動照片裏的對象或者更換環境光色;智能回復功能:你可以讓 AI 替你回電話或者自動生成幾種不同情緒和态度的回復文本。
當有人問谷歌站台的工作人員 "Bard 現在有内置 App 嗎?" 以及 "Bard 能否關聯到手機的本地信息?" 時,得到的答案都是否定的。
這也許是因為手機算力的限制。本屆展會上谷歌用來展示其 AI 能力的設備主要是其最新的手機系列 Pixel 8,它所搭載的 Tensor G3 雖然在 AI 能力上做了一些提升,但相對于競品的蘋果 A14 或骁龍 Gen8 3 在性能上仍有很大差距,預期能本地運作的大模型參數不會超過 4B 參數。
至于幾個月前 Youtube AI 就宣布的創作工具,我們在 CES 展會上能看到的仍然是只能作為視頻演示的 beta 版本,且三項演示的功能分别為智能聲音降噪、智能分辨音樂節奏點和智能字幕,确實有些新意不足。它的主要競品剪映在至少一年前就上線了這三個功能中的兩個。
其他手機廠商在系統中展現的 AI 能力也都比較平庸,ROG Phone 8 Pro 主推的 AI 功能也是 AI 自動生成桌面,人工智能降噪這些不疼不癢的應用場景。
谷歌在 CES 上的智能回復功能展示 攝影:騰訊科技
汽車 AI:上了車,但還沒完全起步
在汽車領網域,AI 融合的階段和 PC 相對類似:大模型上了車機,但主要的應用還是作為語音助手。它可以調用起地圖、娛樂系統等車上應用,但這也是大模型上車之前那些 NLP 語音助手就已經擁有的能力。
AI 上車最簡單粗暴,拿來主義的方式就是接入現有模型。這種模式的核心範例就是大眾汽車,其最新的 ID3、4、5 系列将是第一款接入 ChatGPT 的汽車。寶馬汽車也類似,只不過接入的是亞馬遜的 Alexa 大語言模型。
除了簡單的 AI 上車機之外,奔馳對 AI 的調教相對走得最遠。它在 CES 最新發布的車機系統 MBUX 是基于 MB.OS 作業系統打造,具有四個 " 性格特征 ":自然、預測、個性和同理心,可以和用户像朋友一樣交流。
雖然奔馳未透露該模型的合作方,但這些描述能讓人首先想到 Inflection AI(它是一家同樣強調有同理心的 AI 助手的大模型公司,是 OpenAI 的主要競争對手之一)。但奔馳并沒有開放 MBUX 的實機測試,因此也無法評價它的實際體驗到底如何。
高通在它骁龍數字底盤概念車系統展現了 AI 與汽車定制化結合的更具體範例。這款系統提供了基于 Llama2 和 Whisper 的純端側大模型能力,除了一般的對話娛樂功能外,AI 的定制化展現在它對車況的了解上:當你的汽車出故障的時候,它能語音告訴你故障顯示的意思和準确原因,而且還會給你建議最近的維修店地址。
但這一了解似乎主要出自于某種故障排查手冊,而非對整車情況的實時監控。所以雖然進行了融合,但還只是最初步的融合,很難帶來真正體驗上的提升。
在高通車機系統上,AI 調出的故障手冊 攝影:騰訊科技
家電 AI:撐不起大模型的硬體,用助理機器人做外挂
在家電領網域,AI 和家電功能性的融合的點更多,整體邏輯也更成熟。但很主要來自對之前智能家具能力的更新,而非對新誕生的大模型的應用。原因其實很明确:對于一款主要功能并不是和用户聊天的家電產品來説,要用高成本的 AI 芯片來接入大語言模型實在太不經濟。
比如 AI 口号喊得最響,乃至打出了 "AI for All" 招牌的三星,在 CES 展出了 AI 融合明星產品 BESPOKE 冰箱:它的 AI 融合點在擁有一整套 Family Hub 智能系統,可以通過内置攝像頭 + 影像識别 AI 冰箱内的物體,提醒用户食材數量大概還能食用多久 , 還可以通過選擇幾種食材在社區中為你推薦相關菜譜。然而這些功能中能和 AI 挂鈎的就只有影像識别部分。至于看起來很 AI 的對話功能則是通過它内置的語音助手 Bixby 完成的,這個系統初代版本可以追溯到 2017 年,和 Siri、微軟小冰的定位一致,是當時很流行的手機語言支持系統,在家具智能化的大潮之中逐漸普及到三星的家電用品上的。
考慮到當下的家電芯片算力,也許它會在未來幾年内與大語言模型產生結合,但在現下的版本中它應該還是由 NLP 專家模型主導,只能有效回答固定的命令。
三星的 BESPOKEN 冰箱 攝影:騰訊科技
三星的另一款不那麼受關注的產品更好的顯示了 AI 處理能力與傳感器融合的傾向:BESPOKE AI 洗烘一體機,這台洗衣機可以根據其内置的重量、視覺、濕度傳感器去判斷需清洗衣物的質料、量和污濁程度,再将這些信息傳輸給 AI 系統用以調控水量、温度、清洗強度和時間。AI 在這裏和更多的傳感器融合,獲得了更全面的感知能力,進而能做到更復雜的控制。但和 BESPOKE 冰箱一樣,它的對話和控制系統也不是基于大語言模型的。
另一個 AI 化傾向明顯的產品領網域是電視。LG、三星、TCL、海信等電視品牌今年都推出了 AI 芯片驅動的電視。AI 帶來的一個主要能力是 Upscale,也就是畫質升格。LG,三星的電視今年都支持将 4k 畫質提升到 8k 畫質。這一功能對于目前在主推 8k 電視的高端電視品牌來講确實很有價值,因為現有流媒體中 8k 片源非常稀少,買了 8k 電視也沒有用武之地。這一最新的畫質升格技術确實用到了深度學習和 GAN 神經網絡,因此必須借助 AI 芯片才能達成。但它依然和大模型的關聯也并不大。
以上的這些產品都在應用層邏輯上找到了與 AI 能夠結合的方向以及可适用的場景,但都還沒在應用到大語言模型。
但有一個現象值得關注:這些家電廠商陸續開始推出私人助理機器人。
在這次 CES 上,LG 推出了 Q9 機器人,三星則針鋒相對的更新了 Ballie 機器人,定位都在家庭私人助理。在兩個廠商的講解和展示中可以确認這些機器人都确實裝載了大語言模型;他們能夠完成相對復雜的互動,理解乃至通過感應系統預判用户的需求(比如你在健身時從站着變成橫躺,那它就會把投影投向屋頂),并可以調用智能家居中的其他一切設備用最合适的方式來完成用户的需求。
這可能就是家電廠商對 AI 智能化成本的解決方式:與其所有的產品都使用高成本的芯片,不如就做一個統合助理來調用所有智能家電產品。
除此之外,據兩家廠商宣稱,它還可以通過學習用户的個人習慣和偏好,來更好地做出适合其情感或生活需求的判斷,而這一功能目前連 ChatGPT 都還做不到。
這兩款機器人目前都是概念階段,比如 Ballie,從它 2020 年第一代展示到現在從沒有任何發售的迹象,但它們展示出了是當 AI Agent 實體化後所能給我們生活帶來的改變。
這也是我們在這場展會中看到的最接近 AI 真正融入電子產品後的一種樣态之一。
三星展台的 Ballie 在投影菜譜視頻 攝影:騰訊科技
機器人 AI:大模型還在實驗室裏
在今年 CES 的機器人展區中的機器人很多,但并沒有出現借由大模型訓練的機器人。這本來是今年學術界的一個熱門方向,如今年李飛飛團隊帶來的基于語言模型訓練的機器人 RT2,斯坦福大學另一組團隊做出的火爆全網的 AI 機器人,都能自主學習,完成多任務。但可惜的是,他們應該都還在實驗室裏。
在 CES 展區中,有來自 Richtech Robotics 的雙臂機器人 ADAM,這引來微軟 CEO Stella 圍觀的開普勒人形機器人和宇樹科技的 H1 人形機器人這樣偏向傳統意義的動力型 / 工業型機器人,雖然在靈活程度和機械協調性上表現的更加出色,但和這波 AI 浪潮的關聯并不強。其智能處理能力主要來自于編程或傳統機器學習方法訓練,而非大模型。
微軟 CEO Stella 參觀 CES 上的開普勒人形機器人
CES 上,我們能看到的四個趨勢
毫無疑問,在本屆 CES 上,AI 與各種場景的融合都在加深,這種融合從各個方面都在提升着智能產品的能力。但帶來 AI 浪潮的大語言模型在其中扮演的角色卻并不那麼重要,目前的階段,只是将生成功能簡單地平移到各個場景中去,而非深度融合。
盡管如此,但本屆 CES 毫無疑問是應用層面上将大語言模型從網頁、手機上進入實體生活的第一次地集中展示,同時也給 " 生成 AI 融合萬物 " 的未來期許開了一個好頭。從這些 " 實體化 " 了的 AI 中,我們能夠一些未來潛在的趨勢。
趨勢一 . 傳感器與 AI 的深度結合
在現有的大語言模型中,AI 獲得的信息大多來自預訓練的文本或者影像。但在實際生活用例中,場景中的信息是較之影像、聲音和文字更多元的,比如温度,重量等。部分傳感器提供的是影像或影像信息的抽象(雷達),是可以被多模态模型直接應用的;而更多傳感器提供的是多元環境數據信息,對整合文字、聲音、影像、視頻這四個最主要人類感知信息源的多模态模型提供盒更多了環境信息的補充。有了傳感器的結合,AI 才有了真正的環境理解能力和在場性。
目前的大語言模型在這方面的實踐還很初期,雖然它可以理解用户的部分意圖并作出判斷,但環境信息的接收有限,能将環境和應該做的操作聯系起來的路徑還沒建立。這也是為什麼它在當下和產品結合時更多讓人感覺飄浮和分離的重要原因之一。
從三星 BESPOKEN 洗衣機那裏,我們可以想象當大語言能夠真的依靠傳感器在多模态的應用上取得進一步突破,我們将進入一個全新的智能化領網域。
趨勢二 · AI 的進一步偏好個人化
在今年的 CES 上很多車機或者家電公司都強調要通過 AI 給用户帶來更個人化的體驗,不論是在情緒還是在生活偏好上的體驗。但當下的 AI 個人化在很大程度上是基于 AI 對文字表達需求的理解上的,但很多人的偏好可能是通過行為,而非語言表達的。只有在具體的需求場景下,AI 才有可能通過觀察人類行為的信息并推斷出相應的偏好。這是創造一個真正的理解你的個人 AI 助手的核心需求之一。為了達到這個目的,AI 的發展會在後續持續向這種可能性進發。
趨勢三 .AI Agent 作為一個統合的入口
今年在 CES 上最火爆的 AI 產品就是 Rabbit R1,它的底層邏輯就是通過 AI Agent 的能力将某一個應用或者設備變成所有應用的入口。
Rabbit R1
這個邏輯其實和亞馬遜的 Alexa,上文提到的 Ballie、Q9 智能家居助手都很像,用一個 AI 系統調起所有自己支持的 API(智能家居,車輛能力),并成為用户意圖和多產品功能之間的中轉站。
在騰訊科技在 CES 期間對高通副總裁 Zarid Asghar 的專訪中,他也認為 AI 在後續發展中會成為作為一切應用的入口,由此誕生出新一代的 AI 智能設備。
Rabbit R1 正是走在這條路上,我們認為,這也将成為後續 AI 智能設備發展的的主流方向。
趨勢四 . 發掘大語言模型聊天之外的潛力,找到更具體的場景應用
大語言模型在語言互動、知識檢索之外有一個很強的泛化能力,即統合信息進行預測。
當這些信息是一些非語言,或者我們難以理解的語言時,預測在很大程度上就成為了翻譯。比如很多科學家試圖利用大語言模型理解鲸魚、狐狸的語言并取得了一定的效果。
今年的兩個非常有創意的 AI 產品都是基于大語言模型這一能力的使用的。比如獲得了 CES 今年創新大獎的 Anura MagicMirror,它就是通過其情感技術 DeepAffex 識别并分析人的面部血流,将其轉譯為包括血壓各種健康指數,并預測患病概率的產品。
Anura MagicMirror
另一個更直接利用這種轉譯的產品是 Cappella,其手機應用程式可以基于大模型 " 翻譯 " 寶寶的哭聲,告訴你他們是餓了、不舒服、累了還是需要換尿布。Cappella 聲稱,利用人工智能和機器學習來解讀嬰兒的需求,其技術的準确率約為 95%,而對于試圖猜測嬰兒需求的人類來説,準确率約 30%。
所以,其實除了聊天之外,大語言模型邏輯下的 AI,還是有很多應用邏輯和場景有待發掘。期待在明年的 CES 上,會有更多企業能發現這些可能性,讓 AI 真正進入數字設備中。