Boson李沐、Luma 宋佳銘：AI科學家能不能理解普通人對AI的需求，怎麼理解？

今天小編分享的教育經驗：Boson李沐、Luma 宋佳銘：AI科學家能不能理解普通人對AI的需求，怎麼理解？，歡迎閱讀。

以下文章來源于矽星人 Pro ，作者 Jessica

第二期華夏基石數智時代領導力特訓營熱招中！

報名即送十月管理論壇參會名額 1 個，價值 12800 元！

作者 | Jessica

來源 | 矽星人 Pro，管理智慧

咨詢合作 | 13699120588

文章僅代表作者本人觀點，圖片來源于 pixabay

從 o1 到 Cursor，再到 Canva 和 Notebooklm，大模型正在快速進入應用落地階段，所有創業者和開發者甚至研究者都要思考如何讓這個技術直面用戶，更快走入消費者市場。

在加州聖克拉拉剛剛舉辦的 2024 華源年會上，矽星人創始人駱轶航與 BosonAI 聯合創始人李沐，Luma AI 首席科學家宋佳銘，以及加州大學伯克利分校增強現實中心執行主任楊安進行了一場對話，讨論了今天 AI 技術在進入消費者市場過程裡的挑戰，最新的模型發展趨勢，以及作為創業者在創業一線感受到的冷熱變化。

以下為對話實錄：

駱轶航：上台前我的一個朋友說，我是來負責拉低這場 panel 智商的。我非常同意，畢竟我自己沒有 PhD 或科學家背景，而是媒體和社區出身。但正是這些經歷，讓我能從不同角度提出一些問題。比如幫助大家将前沿的 AI 研究轉化為真正面向消費者的東西，這其實也很有趣。好的，那麼首先讓我向在座各位提一個問題。

大家作為既熱衷于 AI 學術界又致力于為消費者打造真正 AI 產品的個人，是如何将前沿 AI 研究轉化為面向消費者的成果？這是你們日常工作的一部分嗎？

楊安：我可以先回答。我目前在教育行業工作，而孩子們将成為下一代用戶，也是未來公司需要雇傭的勞動力。因此，創新以及如何部署這些創新來真正幫助下一代，是我的關注點。這意味着以用戶為中心的設計，我們必須理解孩子們的需求。

随着技術的不斷發展，每個現代家庭的父母都必須成為創新者，家庭裡的每個孩子也必須成為創新者，因為舊的學習方式幾乎在我們眼前消失了。我們剛剛聽到兩位教授講述了如何進入頂尖大學。我知道家長和學生們必須找到新的方法來展示他們的能力和資質。因此，我想發掘更多這些方面的内容，希望新技術能夠更好地為他們服務。

駱轶航：佳銘，你怎麼想？

宋佳銘：從我的角度來說，我認為問題是作為學術界和工業界的從業者，如何保持好奇心。兩者的衡量标準是不同的，學術界通常是為了發表論文，讓你的研究被社區認可，而工業界更多的是關于如何建立產品，并為更多人創造長期影響。因此，雖然兩者都需要創新，但在工業界，某些更難的問題反而可以更容易解決，因為有長期規劃，而不是專注于學術研究。在 Luma 我們主要關注產品。和我交談的人提出了許多難以實現的需求，這對我們研究人員提出了挑戰，因為我們當時無法解決這些問題。但也讓我們有機會提出一些從根本上改變現狀的新解決方案。

駱轶航：那麼在 Luma，工作模式是產品團隊推動研究人員實現這些目标嗎？

宋佳銘：實際上是雙方相互推動。研究人員對什麼是可能的有更好的理解，而產品設計師當然有全新的願景，但有些願景短期内很難實現。不過他們的願景确實非常出色。因此這更像是在權衡短期和長期的能力。

駱轶航：李沐，你怎麼考慮這個問題？

李沐：過去十年我主要從事 AI 技術工作，幫助解決不同的問題。大多數是 B2B 業務，比比如幫助像 Amazon 這樣的公司開發新產品，或者幫助初創公司為大型企業提供客戶解決方案。但幾個月前，我意識到，為什麼不利用這些技術來解決我自己面臨的問題呢？比如，我有兩個孩子，我花了很多時間照顧他們。那麼是否有可能用技術讓孩子們更快樂，或讓教育更好？我還考慮到父母，是否可以用技術幫助老年人？現在的技術已經好到足夠可以服務于孩子們和老年人。

駱轶航：所以這促使你開始創業，專注于如何用 AI 幫助你自己和家人？

李沐：我覺得這是一個很好的機會，可以探索新的方向。

駱轶航：那麼讓我們更深地探讨這個話題。在研究人員和消費者之間的關系上，你以深度學習的布道者而聞名，那麼你接觸非 AI 專業人士的經歷，是否有幫助你更好地理解人們對 AI 的需求？

李沐：是的，我一直試圖幫助一些特定人群，比如碩士研究生，他們的導師通常忙于寫提案，沒時間教他們，所以這些學生需要幫助。另外，一些剛畢業進入工業界的學生也面臨很多挑戰。他們可能沒機會接觸最前沿的技術，但需要趕上這些新的技術浪潮。所以我考慮如何幫助這些人，但後來我意識到，很多人并不是真的想深入了解技術，他們只是把學習當作一種陪伴的方式，享受知識流過大腦的感覺，而不必記住所有内容。這改變了我與孩子們的相處方式。有時候我們不一定要教他們什麼，而是一起享受這個過程。

駱轶航：這是你第一次這樣表述自己對 " 布道 " 的想法。你其實并不是在真正要教會那些觀眾，而更像是他們的陪伴者，對吧？所以這是否激發了你去做一些類似于 AI 伴侶的東西？

李沐：是的，這是其中之一。

駱轶航：很酷。那我們繼續讨論 AI 伴侶的話題。你之前在社交媒體上提到你會做一些與此高度相關的事情。AI 伴侶這個想法出乎很多人的意料。因為你之前一直從事其他領網域的工作，但現在你和你的團隊正在嘗試開發一個具備最高 IQ 和 EQ 的 AI 伴侶。那它會是什麼樣子？它的形态如何？

李沐：這是個好問題。我們目前的重點是 AI 技術，這只是我們想要模型前進的一個方向。我認為我們現在擁有的技術離最終目标還很遠，這個目标是模型或智能體能夠像人類一樣，甚至不一定是人類，只要足夠智能。尤其是對年輕人而言，能夠被認作是他們的朋友，要達到這個目标還有很多事需要做。如果你現在看看 ChatGPT，甚至是幾天前宣布的 ChatGPT 實時功能，一開始非常令人驚豔，但過了一段時間後，你會發現它還是有很多不足，很多邊緣案例處理得不好，它并不真正理解你。

所以，最終我們設想的模型不一定是那種擁有超高智商的家夥。因為在生活中，大多數情況下你不需要重復教導别人，而更多的是情感支持。因此，模型需要非常好地理解人類情感。目前這很難做到，原因是我們缺乏足夠的數據。雖然我們有大量編碼數據和教科書數據，但我們沒有足夠的數據來理解人類情感和背後的邏輯推理。這使得在建模方面很難，

駱轶航：既然你提到了這些挑戰，你認為你們能完成這個任務嗎？你們能夠構建一個具備最高情商和智商的 AI 伴侶，而其他團隊——比如 Character AI 之前未能實現這個目标——相比他們，你覺得你們的優勢是什麼？你為什麼相信你們可以做得更好？

李沐：我并不認為他們失敗了，只是遇到了一些問題導致放棄了。Character AI 的模型團隊去了 Google，可能繼續開發相關技術，但作為一家公司，他們可能覺得這個項目需要五年或更長時間才能實現。因此這并不是成功或失敗的問題，而是五到十年的遠景。我認為我們需要這樣的 AI 伴侶，因為現在人們變得更加孤獨和孤立。過去可能三個人就能組成一個團隊，但現在一個人就能用各種工具，比如 Cursor、Copilot 和 ChatGPT，獨自構建產品。所以當每個人都可以獨立工作時，你會發現沒有人可以交談。未來每個人都忙于自己的工作，沒時間聽你說話。AI 伴侶可以成為你傾訴的對象，總結來說，我認為我們做到了。

駱轶航：好的，那麼讓我們轉向佳銘，仍然是關于面向消費者的内容。不過在此之前，我需要提出一個技術問題，昨天 Meta 發布了他們的一個視頻生成模型，叫做 Movie Gen，令人驚訝的是，它舍棄了擴散模型，轉而采用了一種新的架構，名為 Flow matching。你對這一點有什麼看法？畢竟你在職業生涯中做了大量擴散模型的研究。

宋佳銘：我認為在 Flow matching、擴散模型以及擴散 transformer 這些概念之間，人們的理解存在一些誤解。首先我要總結一下，流匹配與最初提出的擴散模型框架有所不同，但差别并不顯著。它的不同之處在于，相同訓練預算下能夠在較少的采樣步驟内取得更好的效果。不過類似的結果早在 Stability 以前的論文中就已經展示過，他們使用了一種稱為 " 修正流 "（rectified flows）的概念，這實際上與 Flow matching 的想法非常相似。修正流最初是由德州大學奧斯汀分校張召 ( Zhang Zhao ) 教授團隊提出的，他們還進一步擴展了該概念。因此這并不是一種全新的模型。

駱轶航：那與現有擴散模型相比，它的區别在哪裡？

宋佳銘：在擴散模型中，一個非常重要的概念是将噪聲與原始輸入混合，而流匹配和傳統擴散模型之間的差異主要體現在如何混合這些輸入，以及在信号與噪聲的比例（通常稱為信噪比）上的不同。擴散過程通常是從信噪比無限大（無噪聲）到信噪比為零（無原始信号）的過渡。Flow matching 也在這個框架内，不同的是它在這個過渡過程中的調度和信号縮放方式不同。

駱轶航：你覺得這種流匹配架構對用戶，比如那些創作者，會有什麼影響？

宋佳銘：流匹配作為一種算法，可能會加速訓練和推理過程，這也是大家在擴散模型中試圖解決的關鍵問題之一。比如我個人之前在解決這個問題時，通過算法改進将推理速度提升了 5 到 10 倍，之後還有很多後續工作也在改進采樣速度。而與擴散模型類似，流匹配會繼續在這些領網域中存在，因為它與擴散模型的訓練技巧非常相似。至于 transformer，它是一種通用架構，目前大模型，比如自回歸 transformer，在語言模型中廣泛使用。所以這些算法和架構雖然有區别，但它們之間是相關聯的。流匹配和修正流的影響在于，它們提供了更好的超參數來訓練這些模型。

駱轶航：好的，那我們來聽聽 Alan 的看法。Alan，你的研究和工業界的商業化非常接近，尤其是在 AR 或 VR 領網域，并且與你提到的以人類中心的用戶體驗設計密切相關。那麼你是如何從潛在的 AI 消費者中學習的？比如那些年輕父母、青少年，甚至是新生兒，他們可能是這類 AI 產品的早期采用者。你是如何确保你的研究以人類為中心，并且準确達成這些目标的？

楊安：我可以舉幾個例子。我拿到了計算機視覺方向的博士學位，那是在 26 歲左右，那個時候深度學習剛剛興起。大家都知道，随着技術的發展，教授們越來越忙于寫論文，可能沒有太多時間教學生。我認為，作為教授或者教育行業的從業者，我們唯一需要關注的用戶就是孩子、學生，以及他們的父母。我們如何幫助他們？目前我還沒有看到任何 AI 產品能夠真正引導孩子們去學習 STEM（科學、技術、工程、數學），學生的學習動機仍然依賴于學校、孩子和父母之間的合作。

在伯克利，我們創建了一些項目來激發孩子們對技術的興趣，比如 AI 賽車項目。令人驚訝的是，年僅六歲的孩子們已經開始讨論自動駕駛了。我認為，通過這種方式，我們可以讓學生們感受到技術的興奮和價值，從而激發他們的學習興趣。

在這個 AI 賽車項目中，我們發現從五歲到七十歲的人都能立即理解賽車的意義。無論是用無線遙控在廚房裡操控賽車，還是在賽車場上以 150 英裡的時速賽車，都能激發他們的興趣。因此，我們的項目吸引了很多有才華的大學生和研究生參與，他們能夠看到自己的貢獻如何變得有趣和有價值，并将其介紹給父母或未來的雇主。

駱轶航：那麼在伯克利，你會遇到來自各種背景的年輕人，他們可能學習文學、哲學、社會學等學科，有些人甚至對人工智能有抵觸情緒。你如何看待這個差距？你将如何彌合這些誤解？

楊安：我再給你舉兩個例子。其中一個是我們目前在伯克利正在進行的項目。我們在伯克利有一個頂級領網域，叫做 TAI，代表教學助理智能平台（Teaching Assistance Intelligence.berkeley.edu）。這個想法是利用 GPT 技術，為每門伯克利的課程提供 24/7 的 GPT 個人助理。要知道，在伯克利，我們有超過 5 萬名學生，很多基礎課程可能有上千名學生參與，甚至在多個班次中一起上課。為了給學生提供更好的教育，一個方式就是去中心化教育。而通過 24/7 的 GPT 助理，可以讓學生在任何時候獲得幫助。我認為，下一代對這些技術的抵觸會比老一代小得多，就像我女兒，她一發現特斯拉可以自動駕駛，完全沒有感到擔憂，這對她來說是非常自然的事。我相信，當她長大後，會覺得所有的車都應該自動駕駛，而手動駕駛的車可能會變成她這一代人的 " 古董 "。

當然，這個過程并不能應用于所有方面。比如我們目前正在與高通公司合作的一個研究項目，發現設計師和工程師之間存在很大的鴻溝。假如我們想要設計一個全新的用戶界面，這并不是 AR 或 VR 的界面，也不是傳統的 UI，而是基于 GPT 的 UI，類似于電影《鋼鐵俠》中的賈維斯。我們發現設計師在這個項目中的第一個問題就是，他們對大語言模型（LLM）如何觸發作業系統功能完全沒有概念。因此，傳統設計師需要接受相當系統的教育才能理解如何将 GPT 集成到界面中。這是我們在伯克利通過研究長期解決的一個問題，我們需要立即解決這些問題，而不能等到下一代。

駱轶航：同樣的問題轉向佳銘，想聽聽你從用戶端的反饋，尤其是關于 Dream Machine 的用戶，他們可能是個人創作者或專業的視頻制作工作室。我猜測，大多數用戶可能需要連續運動的角色，可能持續 30 秒或更長時間，或者需要更加真實的 3D 影像，同時希望生成成本能大幅降低。那麼這些用戶的痛點是可以通過逐步改進來解決的，還是需要從零開始進行新的研究？

宋佳銘：這是個很好的問題。我認為用戶的需求非常多樣化，而我們實際上是在 Dream Machine 推出後才真正了解到用戶的需求。因此，我們确實在推出時并不了解這些需求。但我們确實從用戶的行為中學到了很多，他們的想象力遠遠超出了我們的預期。我認為有些需求可以通過擴大規模來滿足，然而生成視頻的成本依然很高，因為視頻包含大量像素，并且需要處理龐大的上下文信息。因此，确實需要一些基礎研究的改進來進一步降低成本。但我對這個領網域的進展持樂觀态度，因為我們看到，在過去兩年中，語言模型領網域的成本大幅下降，而影像生成的質量也顯著提高。所以我對未來的進展充滿信心。

駱轶航：太棒了！接下來我們再讨論一下未來的趨勢。大家怎麼看待未來 AR 或 VR 設備的發展？比如 Meta 剛剛發布的 Orion 眼鏡，以及在 AR 設備中的内容生成和視頻生成模型的結合。佳銘怎麼看待這個問題？畢竟 luma 目前沒有從事硬體方面的工作。你如何看待視頻生成與 AR 或 VR 設備的結合？

宋佳銘：我認為視頻生成和影像生成在 3D 和 4D 生成中非常有用，未來我們肯定會看到更多的 4D 生成工作。過去一年裡，随着視頻模型的出現，确實有更多的應用場景，因此它們在 AR 和 VR 應用中也非常有用。不過，要想看到廣泛的應用，我們确實需要看到這些硬體的廣泛普及。

駱轶航：李沐，你認為 AI 伴侶是否會在虛拟現實環境中存在？

李沐：是的，這是我們與一家大型遊戲工作室正在合作的項目之一。他們已經做了很多開放世界的 3D 遊戲，但我們設想，下一代遊戲不再需要 1000 個設計師來編寫劇情，而是由邏輯模型自動生成所有的故事情節、角色、事件和互動。這是 AI 生成的劇情、角色、社會和人類之間的互動，應該是有趣且一致的。

駱轶航：我是三國遊戲的超級粉絲，如果遊戲中的每個角色都由一個足夠強大的視覺模型生成，他們會彼此互動，我們也可以和他們通過自然語言進行對話，會非常有趣。

最後一個問題，請每個人給出一個簡潔的回答。

你們怎麼看待多模态模型在實現通用人工智能目标中的作用？早上，李開復在台上談到了多模态的重要性，他說多模态模型将推動大量的創新應用。你們怎麼考慮？

宋佳銘：語言建模中的一個核心概念是可擴展性，基本上是你擴大數據和模型的規模，性能就會變得更好。有些人認為這是一條通往 AGI 的道路。不過，我們不能無限增加模型規模，但我們可以顯著擴大數據規模。語言建模領網域幾乎已經用完了所有的語言數據，正在依賴合成數據生成，但在視頻、音頻等多模态領網域，還有大量的數據尚未利用。因此，我認為多模态 AGI 的路徑在于利用這些海量的數據。

李沐：過去半年，我們在音頻多模态領網域進行了一些研究，發現現在的問題是，在開始的前一分鍾，多模态模型的表現都很好，能夠處理情感信息。但一分鍾之後，文本模型的表現依然更好，推理和上下文的處理依然是文本主導。因此，文本仍然是關鍵，其他模态可以讓產品更加有用，但能否顯著提升效果，暫時還不确定。

駱轶航：好的，今天的讨論就到這裡，希望大家都享受了這場讨論。謝謝各位！