今天小編分享的汽車經驗:NOMI GPT背後有哪些思考?我們與蔚來工程師聊了聊,歡迎閱讀。
上一周,我們制作了《GPT 上車,到底有什麼用?》的節目,對 GPT 上車可能的應用場景,發表了我們自己的看法。一周之後,蔚來宣布 NOMI GPT 正式開啟推送。我們也在第一時間,與蔚來座艙體驗負責人、NOMI 互動以及認知的負責人等相關研發人員,就智能座艙邁入大模型時代,進行了溝通。
GPT 上車,在過去一年裡屢次被車企提及。而我們關心的是,一家車企去做大模型,和 OpenAI 這樣專門從事人工智能研究的公司,究竟會有什麼不同。同時,面對曾在語音助手上有多年積累的百度、華為、小米等入局汽車,蔚來和他們相比有哪些優劣勢與差異點呢?
這些問題,在今天的溝通會上,我們得到了一些新的認知。
車企做大模型,有什麼特點?
大家對大模型的了解,很多來自于 ChatGPT 在過去一年的火熱。但是,相比這種對通用大模型的基礎研發,一家車企做大模型,最本質的區别在于,他要讓大模型的能力服務于汽車場景的需求,而不是一股腦地将大模型能力 " 堆 " 在車上。
比如文生文、文生圖等等大模型的通用能力,如果只是簡單地搬運上車,除了在宣發上可以吹吹牛之外,對用戶其實沒有太大的價值。
尤其是對蔚來而言,有一個高度拟人化的 NOMI 人工智能系統後,如何讓這個 " 夥伴 " 更加拟人化,如何更富有情感地與乘員互動,既是蔚來研發的一大難點,但同時也賦予了蔚來智能座艙獨一無二的體驗。
而在此次蔚來端雲多模态大模型上車後,NOMI 的核心技術架構,得到了全新的更新。具體來看,主要有三項:認知中樞、情感引擎、端側多模态感知。我們盡可能用通俗的語言,來進行分解。
首先是認知中樞。
這主要是對用戶說話中信息的認知,從而進行回應與相應指令的執行。但是,因為 NOMI 有拟人化的需求,這種需求不僅體現在 NOMI 對話的語氣更像是真人(而不是機器人),而且要能更準确地判斷用戶對話的意圖與需求,既要聰明執行,更要靈活不打擾。
舉一個非常常見的例子,當呼喚語音助手進行導航目的地設定時,會在說 " 我要去……某某地方 " 時,中間會間斷一下,因為腦海中沒有組織好目的地的表達方式。很多的語音助手,就會在這個語氣的間斷時打斷用戶,用戶就必須重新把指令再說一遍。
但是 NOMI GPT 的認知中樞,可以幫助 NOMI" 等待 " 用戶在間斷後說出目的地,再發起導航。因為大模型能夠結合對話的上下文,智能地判斷調用任務型互動。這是一個技術問題,但表現出來卻是一個人性化的體驗。
再舉一個例子,在和 NOMI 進行問答時,NOMI 會在給出答案後再加一句類似 " 你覺得怎麼樣呢 " 的互動。這同樣也是對對話理解的體現,反映到用戶體驗上,就是我并不是在執行指令,而是真正地像在與真人對話一樣。
其次是情感引擎。
這是蔚來在汽車行業獨創的架構。情感引擎的加持,一方面能夠讓 NOMI 具備短期記憶和長期記憶的能力,就好像真人去記憶和用戶說過的話,記憶用戶的喜好,記憶和用戶所經歷的場景;另一方面也讓 NOMI 具備 " 人設 ",包括性格、三觀等等,而不是一個簡單的 " 問答機器 "。
比如,和 NOMI 進行 " 無限趣聊 " 時,這個特點就非常明顯。NOMI 的話語,會讓人覺得旁邊有一個博學、樂觀、謙遜的朋友,而且配合 NOMI 多達 200 餘種表情,更能凸顯情感屬性。再比如,語音設定快捷場景的指令後,NOMI 能夠理解這個場景的意圖,并且給這個場景起一個符合其氛圍的名字。
最後是端側多模态感知。
端側,意味着不管有網沒網,NOMI 都可以發揮大模型能力,也意味着數據信息都會保存在本地,不會洩露出車,并且做到賬号隔離。而多模态感知,意味着 NOMI 可以與影像、音頻、車身傳感器進行融合,從而獲得更全面的座艙内外人與環境的感知。
比如,當駕駛員走進車内,NOMI 就能辨識出今天駕駛員穿的衣服,并在他上車時 " 吹一頓彩虹屁 " 誇駕駛員好看。比如,在車裡拿起一樣物品,就可以問 NOMI,我手裡拿的是什麼。對于座艙外的其它車輛、建築、動植物等,NOMI 也可以看見并且對駕駛員的意圖進行回應。
不過,這些能力蔚來并沒有一次性全部釋放。有一些可能是因為還需要經過更多的訓練學習與測試,有一些則是蔚來出于車端應用場景的考慮。比如問 " 前面是什麼車 ",這個場景除了好玩有趣之外,還有沒有其它的價值可以被挖掘?這樣的問題其實很多。可能有些廠家的選擇是,只要這個功能能夠展現我的能力,能夠吸引用戶的關注,那我就上車。
但是蔚來會想得更多,哪怕具備了這項能力,但如果功能不能完全體現價值,也暫時不會推送。
所以,蔚來做座艙大模型,它的核心不僅是要讓 NOMI 變得聰明,能夠 " 看得見、認得出 ",更要讓他拟人化,領會意圖有默契,甚至與人 " 情投意合 "。這種能力,體驗不到配置表上,沒有真正體驗過也很難從文字中感受到什麼獨特性。但也就是這些一點一滴組合起來,最終将會決定智能座艙大模型是否能夠打動人,成為真正的夥伴。
科技廠商做語音助手,一定更強嗎?
不管是小度、小愛還是小藝,發布都已經有七八年了,而百度、小米、華為現在也都進軍汽車行業。那是不是意味着,這些科技廠商在語音助手的能力移植到車端,就會對汽車廠商產生降維打擊呢?
或許蔚來并不是這樣看,核心還是因為汽車的場景非常垂直,是一個高度依賴優化的場景。
首先,科技廠商的語音助手,此前最大的優勢在于開放問答和閒聊。但是,當有了大模型加持後,這項優勢事實上已經被填平了。因為所有的技術架構,都需要在大模型的基礎上重新建構,所以大家在這方面已經來到了同一起跑線。
其次,車載語音助手比拼的不僅是基礎能力,更是對座艙的理解,是能力和車的場景怎樣去深入結合。這方面,蔚來因為更早進入,因為積累的用戶和數據足夠多,反而是有優勢的。
舉個例子,蔚來現在已經實現的,包括 NOMI 記事提醒、全艙乘員記憶等等,都是行業首創的功能,而且是和用車場景緊密相關、可以被高頻使用的功能。
而且,車裡的環境,包括環境噪聲、對話的位置與聲場,其實和在家裡和一個智能音箱對話,有很大的差異。而這些又直接關乎車載語音助手的響應速度、靈敏性、準确性等一系列非常影響體驗的指标。這個時候就會發現,并不是簡單地把手機或者智能音箱上的能力搬到車上,就能讓人覺得好用、想用的。
所以,面對科技廠商進軍汽車行業可能在座艙人工智能領網域產生的影響,蔚來其實思考得很早,也思考了很多。至少到現在,蔚來仍然會按照自己的想法與節奏,去推進 NOMI GPT 的能力與功能釋放,而不是被短暫的炫技所影響。
寫在最後
在溝通中,蔚來的研發人員分享了兩個數據。第一個數據,是 NOMI 在蔚來銷售車輛中的選裝率,達到了 80%。第二個數據,則是在 GPT 的用戶内測中,和 NOMI 閒聊的對話比例,從 GPT 前的 3% 提升到了 18%。蔚來的研發人員甚至預期在 3-5 年内,随着大模型能力的持續提升,這個比例可以達到 50%。
此時,我們對車載語音助手,對智能座艙的認知,其實已經不簡單是一個 " 不用動手、只用動口 " 的命令執行工具,而是一個拟人化的夥伴。而且這個夥伴的作用,不僅僅局限在以座艙為中心的内外環境,還可以實現與產品、服務、社區等的打通,成為蔚來全程體驗中一個不可或缺的環節。
所以,GPT 上車只是其中的一小步,是在底層技術架構上的部署。後續的場景應用、場景優化、跨網域打通,事實上可以做的事情非常多,可以想象的空間也非常大。