今天小編分享的科技經驗:被嘲笑只有沙發彩色電視機的理想,怎麼在智能化上跑這麼快?,歡迎閲讀。
外界對理想汽車的認知,似乎存在不少誤解。
在眾多新興汽車品牌中,理想汽車常常被指責「沒有技術」,甚至有些聲音将其產品貶低為「工業垃圾」。尤其在智能座艙方面,外界對其印象似乎僅限于冰箱、彩色電視機和大沙發等元素。
這種誤解看似有其道理。理想汽車創始人李想被認為是車圈最優秀的產品經理,他敏鋭地洞察了多孩家庭的需求,并針對這一細分市場提供了更好的用車體驗。
在這過程中,理想汽車的宣傳策略長久以來是将技術細節置于幕後,更注重于展示產品的使用體驗,比如寬敞的空間、舒适的配置以及影音娛樂等功能,而相對少提及自主研發技術。這些在無形中造成了外界對理想汽車的認知偏差。
盡管理想汽車率先推出了冰箱、彩色電視機和大沙發等配置,但理想汽車深信,真正能夠提升智能座艙體驗的,将是他們自研的大模型—— Mind GPT。理想汽車在 2023 年一季度開始了這一項目,成為全球首個自研大模型上車的汽車企業。
理想汽車 AI 首席科學家兼智能座艙 AI 負責人陳偉 | 圖片來源:理想汽車
在廣州車展開始前,極客公園在北京望京的理想汽車辦公室,采訪了理想汽車的 AI 首席科學家兼智能座艙 AI 負責人陳偉。他分享了大模型在汽車中的應用及人機互動助手 - 理想同學的未來展望。
目前,理想汽車已成為新能源車企中的交付領跑者,但其戰略目标遠不止于此。陳偉表示,理想不僅僅是一家車企,更是一家人工智能公司,智能汽車連接了物理世界和數字世界,他們希望把身處數字世界的理想同學打造成未來的智能體。發展分為三個階段:首先增強用户的能力;其次成為用户的得力助手;最後成為能陪伴用户的家人。當然,這個三個階段不是泾渭分明,是會相互交叉的。
對于未來,理想設定了一個宏偉的目标:成為全球領先的人工智能企業。他們的智能電動車不僅會成為最早的人工智能機器人,還将構建物理世界中的 AI 生态系統。如今,理想汽車正穩步朝着這一目标邁進。
理想不僅是一家車企,更是一家人工智能企業
Q:外界對理想智能座艙的發展歷程了解不多,你能先介紹下嗎?
陳偉:理想智能座艙的 AI 互動技術經歷了三代發展。最早,我們主要依賴供應商技術,但三年前開始自主研發,逐步建立了基于視聽融合的多模态互動技術,實現了從語音互動到智能認知的全棧閉環。2023 年初,我們啓動了大模型的研發,年底成功将其應用在車載系統中。
在大模型出現前,語音互動主要是命令式或任務型的,行業競争更多集中在語音識别的速度、執行的準确性和響應效率上。然而,提升家庭用户體驗始終是我們的目标。我們專注于「全家人」的用車場景,打造「三維空間互動」的智能座艙。這一座艙不僅是生活和工作之外的 " 第三空間 ",也是一個高性能運算平台,搭載了豐富的傳感器和強大的本地算力,為創新功能奠定了基礎。
例如,我們在座艙中實現了「無音區」技術,不再局限于某個特定區網域,而是基于空間坐标定位和跟蹤聲源。此外,我們開發了「方言自由説」功能,現已支持 9 種方言,便于不同用户群體使用。我們還添加了隔空觸控和手勢識别,結合語音指令,進一步降低用户的互動成本。
在研發理想同學的技術時,我們始終專注于讓人機互動更自然、高效,致力于為用户提供強大而超出預期的智能體驗。
Q:理想在研發自研大模型時主要考慮了哪些因素?
陳偉: 在研發大模型之前,車内的應用場景主要集中在車控、媒體、導航等任務型對話,且感知技術趨于成熟,但認知能力仍然不足,尤其在復雜任務理解、知識問答、開放式對話上存在局限,這也制約了理想同學的產品力。
我們在 2022 年便開始推動預訓練語言模型技術,逐步提升理想同學的自然語言理解能力。而 2023 年初,随着 ChatGPT 的發布,我們更加堅定大模型是突破認知能力的關鍵。因此,決定啓動 Mind GPT 的全棧研發,以期推動理想同學的體驗跨越式提升。
當時,開源生态剛剛起步,業界對大模型的理解也較為模糊。為加快進展,我們投入大量資源從大模型基座開始探索大模型 " 無人區 " 技術。研發初期,我們專注于車内高頻使用場景,打造理想同學在大模型時代的新角色,包括用車助手、娛樂助手、出行助手和百科老師,力求讓大模型表現出色,并能實現無感知的能力更新,同時與原有的任務型對話無縫融合,從而提升理想同學的智能化水平。
Q:在大模型與傳統對話系統的融合中遇到了哪些挑戰?
在開發 Mind GPT 時,我們投入大量精力解決了任務型對話系統與大模型能力的融合問題。許多車企的大模型系統需要特定指令才能啓用,導致原有功能失效。而我們的目标是讓理想同學在智能化提升的同時,保留用户熟悉的互動體驗,讓用户在自然中感受到功能進步。
此外,随着大模型的對話能力提升,理想同學在用户對話中可能會插話幹擾。因此,我們設計了多模态用户意圖判定算法,讓理想同學能夠精準識别是否在與他交流,從而實現 " 随叫随到 " 卻不打擾用户的體驗。
大模型在信息準确性和時效性上存在 " 幻覺 " 問題。為此,我們設計 Mind GPT 具備連接知識庫及互聯網的能力,以确保用户獲取的信息準确且及時。這也是我們在優化模型體驗時着重突破的方向。通過不斷探索用户場景,我們在大模型研發的過程中,也在持續擴展其應用深度和廣度。
理想 Mind GPT 的技術架構 | 圖片來源:理想同學
Q:Mind GPT 經過了從 1.0 到 3.0 的迭代,這個過程中有哪些關鍵技術突破?
陳偉:Mind GPT 的演進經歷了三個重要階段:
1.0 大語言模型: 聚焦大語言模型能力的打造,在模型效果及推理效率找到最優解,實現理想同學認知能力的躍遷,這個階段重在語言理解、生成、知識問答等能力
2.0 語言智能體: 聚焦大語言模型應用能力的打造,核心是構建圍繞 Mind GPT 的智能體技術及工程體系,理想同學光有一個聰明的大腦是不夠的,他的規劃、記憶、工具、行動的能力都要足夠的好,才能具備自主性,解決更多復雜問題。
3.0 多模态智能體: 聚焦多模态的智能體能力打造,核心是構建融合感知和認知的多模态端到端模型的能力,将人機互動感知和認知的級聯系統更新到單一端到端模型,在互動延遲極大降低的同時,多模态數據的融合訓練能夠進一步提升模型的學習質量和效率,實現模型能力顯著提升。
Q:最近,理想汽車連續發布三篇人工智能頂會論文,能簡單介紹一下這些論文的内容嗎?
陳偉: 這三篇論文主要聚焦于提升大模型的感知能力、解決人類 - 物體互動(HOI)檢測中的長尾問題,以及應對大模型的 " 幻覺 " 問題,為理想汽車的多模态、端到端智能體構建提供了重要技術支持。
第一篇論文(文章尾部參考文獻處有詳細介紹) 探讨了如何有效将多模态信息與大語言模型(LLM)融合。當前大多數多模态模型将不同模态的内容對齊到語言模型的語義空間,以便利用其強大能力。然而,傳統模态連接器往往無法針對特定任務提取所需的模态信息。為此,論文提出了 Q-MoE(高效的混合專家模态連接器),通過引入文本信息的監督,使多模态信息提取更具針對性。Q-MoE 采用創新的模型結構和混合專家路由策略,在跨模态多任務學習中的性能顯著超過現有連接器。
第二篇論文 提出了 KG-Adapter,這一技術将知識圖譜(KG)整合進大語言模型,以應對模型 " 幻覺 " 問題。盡管大模型在很多任務中表現優異,但往往缺乏準确的專業知識和最新信息。KG-Adapter 基于高效微調(PEFT)方法,将知識圖譜的結構信息直接整合到語言模型中,實現了端到端的知識推理。實驗表明,即使只訓練少量參數,KG-Adapter 在多任務和多個數據集上超越了之前的模型,顯著提升了知識準确性。
第三篇論文 針對 HOI 檢測的長尾問題,提出了 " 雙先驗增強解碼網絡 " 方法。這種雙先驗解碼網絡結合了多模态大模型的互動理解能力和檢測模型的局部特征定位能力,大幅提高了模型在長尾類别上的識别精度,性能提升超過 6 個百分點。
Q:理想為什麼要花這麼大的精力自研大模型,很多車企其實利用現有的大模型產品?
陳偉:從戰略上來看,理想公司的目标是成為全球領先的人工智能企業,而大模型技術是 AI 的核心能力,關系到智能化產品體驗的關鍵。自研大模型能幫助我們在技術創新和用户體驗上更具主動性和優勢。
從產品的角度看,理想同學旨在超越用户期望,提供創新和高效的智能體驗。自 2022 年以來,大模型和智能體技術迅速發展,但也充滿了技術挑戰和不确定性。要在這些前沿領網域持續提升產品力,就需要突破技術壁壘,并保持快速迭代的能力。
理想公司從戰略上選擇自研大模型,目的在于打造自主可控的全鏈路技術體系,以更高效、深度的產研協同推動體驗創新。通過自有大模型 "Mind GPT",我們能夠以用户體驗為中心,實現快速迭代,确保理想同學在智能體驗上的持續領先。
Q:目前理想自研的大模型規模有多大?
陳偉:Mind GPT 目前主要分為 Ultra、Pro 和 Nano 三個級别,其中 Ultra 千億級、Pro 百億級、Nano 十億級,覆蓋了端到雲、簡單到復雜的大模型需求
Q:目前大模型的迭代速度非常快,理想自研的大模型如何跟上這個速度?
陳偉:目前大模型技術迭代的很快,我們也在持續跟進并識别可行的技術,快速應用到 Mind GPT 研發中,同時結合我們的業務場景,我們有自己的研發節奏和主線,在模型層面,從 Mind GPT 2.0 開始我們已經切換到 MOE 架構,以此進行模型結構的創新和改進,大模型能力會放在多模态、知識增強、邏輯推理上,最近發表的論文也介紹了我們在這些方面的研究進展。
此外,我們認為理想同學智能化水平的提升,除了在大模型能力上持續突破之外,智能體的規劃、記憶、工具、行動等技術的全面更新,才能構建自主性更強的組合智能,這個方向我們也在重點研究,研究進展也會陸續通過產品和論文的方式對外發布。
汽車的最終形态是智能體
Q:理想同學的終極目标是什麼?
陳偉:我們認為理想同學的進化會分為三個階段,增強人的能力,變成用户的助手,成為用户的家人。成為用户的家人會是理想同學的終極目标,對應到研發要做的工作,要實現理想同學多模态智能體的全面突破,可以參考 OpenAI 對智能的分級标準,需要做到從 L1 的 chatbot 到 L2 Reasoner,再到 L3 Agent 的技術演進。
Q:如何具體理解理想同學的三個發展階段?
陳偉: 這三個階段體現了我們不斷滿足并超越用户需求的願景。
第一階段:增強用户能力 在初期,我們希望理想同學幫助用户更便捷地用車。通過視覺和語音等多模态感知能力,實現自然高效的人機互動。例如,用户可以自由使用方言或簡單指令,理想同學通過大模型 Mind GPT 理解和執行車控、導航等任務,提升語音指令執行的準确性。比如,用户可以簡單説一句 " 我上車開空調播放音樂,下車都關掉 ",理想同學會根據情境自動拆解任務,感知到上車後啓動空調和音樂,下車後自動關閉。這種便捷的功能讓用車體驗更輕松高效。
第二階段:成為用户的助手 在 Mind GPT 的支持下,理想同學進化為用户的全能助手——包括用車助手、出行助手、娛樂助手和百科老師。作為用車助手,它能回答關于車輛操作、狀态查詢、故障排除等問題;出行助手則可以為家庭旅遊規劃路線,推薦餐飲娛樂,講解沿途文化;娛樂助手能聯網查詢時事熱點、明星動态,播放家庭喜愛的音樂和影視;百科老師則涵蓋廣泛的知識,從兒童的十萬個為什麼,到成人關注的科技資訊,理想同學在持續成長的知識儲備下,為家庭提供全方位的服務。
第三階段:成為用户的家人 随着理想同學解決問題的能力增強,與用户的信任關系逐步加深,我們希望進一步建立情感連接,最終成為家庭的數字成員。這個過程需要從信任到情感,再到身份認同的長期構建。例如,通過聲紋識别,理想同學已能識别每位家庭成員;随着 Mind GPT 的記憶功能更新,我們不斷加強理想同學的個性化服務能力。在 24 年的多次 OTA 更新中,理想同學更能基于對每位家庭成員的理解,主動提供個性化推薦。這是我們堅定發展的方向,希望理想同學獲得更多家庭的認可與喜愛。
Q:目前整個行業,在大模型落地智能座艙方面的進展如何?
陳偉: 2023 年我們 Mind GPT 行業首發之後,2024 年行業很多公司都陸續推出了接入大模型的語音助手,行業智能座艙智能化水平整體在快速提升,大模型也成為了重要的賣點。 對我們而言,我們唯一關注的是基于 Mind GPT 的理想同學是否在真正解決用户問題,是否持續做到超越用户需求,是否在技術和體驗上是行業引領的,做好自己最重要。
Q:各家車企都在加速大模型的落地,那理想如何打造差異化呢?
陳偉:我們的差異化聚焦于技術創新,這能夠直接推動產品領先。我對差異化的理解分為兩個層面:
第一層面,對于行業内類似的功能,我們的技術和體驗必須顯著超越。現在大模型的應用已經将 AI 助手從單一領網域擴展到多元領網域,我們的目标是通過技術突破,将體驗從 " 可用 " 提升到 " 好用 "。
例如,在推出 Mind GPT 前,很多公司選擇簡單地将大模型加入現有的任務型對話系統,以快速上線,但這種方式使用時會有割裂感。我們認為用户應該感受到的是 AI 助手變得更聰明了,而不是需要操作切換。因此,我們選擇了更難但正确的路線——将大模型融入對話系統,讓 " 理想同學 " 一次更新,更加智能。不需要切換操作的情況下,技能從幾十個快速增加到上千個。
第二層面,快速跟進前沿技術并轉化為產品。大模型仍處于快速發展階段。去年大模型發布後,我們判斷 " 智能體 " 将是關鍵技術,因此大力推進相關研發。
随着 Mind GPT 2.0 上線,理想同學在大模型和智能體兩方面都得到了更新,Benchmark 測試中的理解、生成、知識問答等能力提升了 50% 以上,而推理成本沒有增加。同時,我們在智能體的規劃、記憶、工具使用和行動方面取得的階段性成果也被迅速轉化為理想同學的功能,這帶來了更強的復雜問題規劃和外部工具連接能力,顯著提升了多輪會話的成功率。
理想同學會成為人機互動的主要入口 | 圖片來源:理想同學
AI 時代,語言團隊變化最大
Q:大模型和端到端技術的到來,對組織架構有何影響?
陳偉:大模型時代的到來正在重塑研發模式,導致組織架構發生顯著變化。
在小模型時代,研發組織通常是基于專業技術方向設計的,例如語音、語言和視覺等。不同技術方向的模型選型各異,研發方案往往是多個小模型與業務邏輯相結合的級聯系統,各個方向之間的差異性較大,因此,各個技術方向獨立進行研發、評估和上線。
而在大模型時代,多個研發團隊需要共同支撐 Mind GPT 這樣單一的大模型的研發和交付。研發方案從級聯系統更新為端到端的系統,研發團隊不再按照技術方向進行組織,而是根據大模型的研發環節來劃分。這包括 Mind GPT 的大模型預訓練、後訓練、智能體技術、評估和對齊等方向,從而重新設計研發組織架構。
Q:理想同學在車内的比重會越來越大嗎?
陳偉:會越來越大,大模型時代智能座艙的人機互動形态會從觸控式互動走向對話式互動,理想同學會成為人機互動的主要入口,我們已有的車機應用會原子化、平台化,支撐理想同學具備更強的跨應用、高集成度的能力。
Q:多模态智能體目前發展到了哪個階段?未來還有哪些挑戰?
陳偉:我們的多模态智能體正在從 Mind GPT 2.0 語言智能體向 Mind GPT 3.0 多模态智能體演進,目前行業研發的重點還是以多模态端到端大模型為主,多模态智能體的研究還較為早期。
我覺得多模态智能體的突破取決于三件事: 1. 大模型邏輯推理能力的突破 2. 多模态特别是語音、視覺和語言的對齊 3. 工具類生态的建設。
Q:最後一個問題,外界對理想最大的誤解是什麼?你們會如何回應?
陳偉:其實談不上誤解,我們更希望通過產品與用户直接對話。因為關于理想座艙 AI 和自研技術的對外介紹較少,大家對理想同學的技術進展和現狀可能了解得并不充分。未來,我們會加強與行業和用户的溝通,增進大家對理想同學技術實力的了解。
在技術研發上,我們始終圍繞 "Mind GPT" 大模型,致力于打造多模态智能體的全棧自研技術。通過規模化的創新與突破,我們希望理想同學不僅是用户的助手,更成為陪伴他們成長的家人。這種陪伴和成長,是我們研發團隊最大的成就與自豪。
參考文獻:
1、理想汽車 Mind GPT 論文《Q-MoE: Connector for MLLMs with Text-Driven Routing》被多媒體領網域國際頂級會議 ACM MM 2024 錄用。
2、理想論文《KG- Adapter:Enabling Knowledge Graph Integration in Large Language Models through Parameter-Efficient Fine-Tuning》,被 ACL(計算語言學協會年會,Annual Meeting of the Association for Computational Linguistics) 2024 收錄。
3、理想論文《 Dual-prior Augmented Decoding Network for Long Tail Distribution in HOI Detection》,被 AAAI (Association for the Advancement of Artificial Intelligence,即人工智能促進協會)收錄。