今天小編分享的教育經驗:谷歌實驗室負責人:真正改變生活的AI產品将在近三年出現,歡迎閱讀。
作者 |吳瑩 曹冰穎(實習)
來源 | 中國企業家雜志 管理智慧 AI+
咨詢合作 | 13699120588
文章僅代表作者本人觀點
不要在聊天機器人上重復投入了
" 寫大段提示詞調用 AI 的方式過時了,用戶需要更高效的互動方式。" 谷歌實驗室負責人喬希 · 伍德沃德(Josh Woodward,以下簡稱 " 喬希 ")近日接受播客采訪時說道。
精彩觀點如下:
1. 普通用戶需要更高效的互動方式,行業内正在探索通過拖拽 PDF、圖片等方式來重組内容,從而簡化冗長的文本輸入。
2. 知識的未來會呈現無限可重組性,任何輸入都能被轉化為任意形式的輸出。
3. 如今,YouTube、TikTok 等平台根據算法給你推送感興趣的内容,未來 AI 可能會根據你的興趣直接生成視頻内容。
4. 創意落地早期不要只看測試出來的各種數據,那都太小了,要觀察客戶的眼睛,當你展示產品時,他們是否眼前一亮?
5. 當前是塑造下一代核心生產力工具的關鍵時期,我們必須想清楚創造這些工具是想取代人類,還是想增強人類的創造力。
6. 真正的 AI 產品将在近三年開始出現,那時就會看到類似 Uber、Airbnb、Instacart 這樣真正改變生活的應用。
以下是對話全文(有删減):
寫提示詞調用 AI 的方式過時了
主持人:你提出 " 通過撰寫提示詞調用 AI 的方式已過時 " 這一充滿争議的觀點,具體是什麼意思?
Josh Woodward:我認為這種方式已經過時了,從用戶體驗的角度來看,我不敢相信曾試圖将大段提示詞輸入這些小框中來使用 AI。當前存在兩種趨勢:開發者可能仍會編寫多頁提示詞,但普通用戶需要更高效的互動方式,行業内正在探索通過拖拽 PDF、圖片等方式來重組内容,從而簡化冗長的文本輸入。不過大模型需要上下文,所以上下文理解這種方式不會消失,但信息傳遞方式正在發生劇變。
主持人:谷歌實驗室的使命和運作模式是什麼?
Josh Woodward:谷歌實驗室是一個匯聚創新者的平台,專注于打造從 0 到 1 的新型人工智能產品,涵蓋消費產品、B2B(企業與企業之間開展交易活動的商業模式)產品和開發者工具。裡面不僅有谷歌的資深員工,還有科學家、創業者等多元背景的人才。團隊聚焦某個領網域的未來發展,如創造力、軟體開發、娛樂產業等,并以小團隊的形式運作,快速構建、迭代并發布產品。它有點脫離了傳統的谷歌大型產品領網域,不過仍可以與 Chrome 或谷歌其他部門合作,去探索、實驗和嘗試颠覆。
主持人:如何營造谷歌實驗室内部的團隊文化?
Josh Woodward:我們以快速迭代為榮,從一個創意最終落地到用戶手中通常只需要 50~100 天。在人工智能日新月異的發展現狀下,速度至關重要。另外還有一點是我們經常從小事做起。在谷歌這樣的環境中,一些產品可能有數十億人在使用,但人們會忘記這些事情都是從解決用戶的某一個痛點開始的。當我們開始一個新項目時,如果每周有 10000 名活躍用戶,我們就已經非常興奮了,這在其他部門可能不值一提,但對我們的初創項目來說意義重大。
此外,我們還保持與外部初創公司的合作,同時注重谷歌内部 DeepMind 的發展,因此對研究前沿的現狀以及未來的發展方向有一定了解。我們尋找富有創造力的人,但必須以平常心對待失敗。我們歡迎兼具模型專業知識和用戶洞察力的 " 獨角獸 " 型人才,一般我們會通過獨特的評估體系來挖掘這類潛力股,比如查看 GitHub 歷史記錄等。
主持人:如何決定下一步開發哪些項目?是自下而上還是自上而下的決策機制?
Josh Woodward:我們采用混合模式。在戰略層面,我們關注谷歌的使命以及對谷歌具有戰略意義的領網域。因為我們身處其中,所以會從更廣的角度思考,例如,軟體開發的未來會是什麼樣子?谷歌有成千上萬的開發人員,顯然人工智能将在這個領網域發揮巨大作用。我們會考慮是否可以為其他谷歌員工構建一些東西,但同時也會考慮為外部的用戶構建什麼,所以這方面我們采取自上而下的視角。而在具體執行時,我們讓 4~5 人的小團隊自主挖掘用戶問題,從自下而上的視角去發現細節,解決具體問題。雖然這在其他團隊看來可能有點混亂,但對我們很有效,我們正在努力生存到下一個 10000+ 用戶的裡程碑產品出世。
還有很多東西即将問世,我個人對谷歌的影像生成模型和視頻生成模型也很感興趣。AI 生成視頻已經成為現實,不過視頻生成模型運行成本很高,比如 Veo 需要數百台計算機支持運算。語言大模型如 Gemini、ChatGPT,去年一年時間成本下降了約 97%,假設 AI 模型的成本曲線是這樣,那麼視頻和影像生成模型的成本在不久的将來一定也可以快速下降。
AI 生成視頻發展到什麼階段了
主持人:如何看待人工智能視頻生成的現狀?
Josh Woodward:跳躍場景、跳躍剪輯等問題已經得到解決,模型對物理世界的認知已經取得了很大的進步,但效率和服務成本仍是挑戰,應用層面還有很多可研究的東西。這是另一個巨大的機會,類似其他人工智能模式,真正的價值在應用層面上。
主持人:人工智能視頻生成何時才能帶來經濟效益?目前它的成本是遠高于帶來的收益的。
Josh Woodward:這很難預測,我不太能确定何時能帶來經濟效益。但我想說,除了產品和應用層面,我們可能還需要在商業模式方面進行創新。我們的第一個想法是先訂閱然後按使用量收費,第二個想法是按輸出付費。對于電影和視頻來說,這有點像制片人做項目時的想法。如果把它想象成個人創作,這更像是一種拍賣模式的模型。所以還有很多值得探索的地方,我們可能知道事情進展的速度,它可能會在某個季度實現突破,而不是在很多年後。
主持人:人工智能發展速度是否在加快?
Josh Woodward:我一直認為它會慢下來,但實際上過去三年的進展飛速。預訓練可能會停滞不前,但推理計算打開了全新的局面。我們團隊裡有一位作家,他提出了 " 相鄰團隊 " 的概念,比如你走進一個房間,看到所有的門通向這些相鄰的團隊。所以在我們内部,AI 還有很多值得探索的項目。
主持人:視頻消費的未來會是怎樣的?
Josh Woodward:我認為娛樂的未來更具可控性。想象一下你坐在沙發上,也許會浏覽一些東西,或者将其投屏到電視上,這都會變得更加可控。另外就是視頻消費未來會更個性化。如今,YouTube、TikTok 等平台根據算法給你推送感興趣的内容,未來 AI 可能會根據你的興趣直接生成視頻内容。
很多東西都會在運行中產生。還有一種理論:10~15 年前崛起的創作者推動了 YouTube 等平台的發展,未來可能會發生轉變,或許将由另一批我們稱之為 " 策展人 " 的群體主導,他們負責策劃内容,使用模型進行創作。
在某種程度上,所需的成本、時間和技能可能簡化到只需點擊按鈕或簡單描述,就能生成不同版本的内容。很多時候,90% 的人只是在平台上進行消費,創作者非常少,未來這種現象會改變,消費者可以從一個完全不同的角度來使用這些内容平台。例如,未來的用戶界面可能會出現 " 加入 " 按鈕。就像現在的界面有播放、暫停、保存、收藏等功能,未來可能會有新的互動方式。我們目前正在 NotebookLM 中構建類似功能,想象一下 " 前進播放 " 功能,你可以創建虛拟形象,或者進行語音克隆,所有元素将以全新的方式融合。
主持人:電影和遊戲之間的界線會變得模糊嗎?
Josh Woodward:這确實有可能。當前電影、視頻内容、遊戲的構建和 3D 技術之間正在產生有趣的交集。雖然我們尚不清楚最終走向,但各領網域正在相互借鑑經驗,包括一些訓練技術層面的突破。
主持人:現在很多公司都在構建生成式視頻模型,有些直接從像素流入手,有些則采用 3D 技術,認為要真正做好視頻必須掌握 3D 技術。你對此有何看法?
Josh Woodward:我們目前在這兩個方向都有投入。在 3D 方面,我們一開始有個項目,基本操作是先拍六張運動鞋的照片,然後創建 3D 旋轉效果,将其投放到搜索界面中,效果非常好,它填充細節的方式也令人驚嘆。直到後來出現了像 Veo 這樣的產品,只需兩三張照片就能生成整個產品目錄。
在視頻方面,3D 視角非常有趣。我們做過一個案例:為每個教室重現登月場景,讓學生 " 進入登月艙 ",我們還建立了一個小側面板,學生可以在那裡輸入問題,大家玩得很開心。這很有趣,模型實際上會填充細節,所以你會覺得視頻和遊戲之間的界線有點模糊,這正是我們同時布局兩個方向的原因。
展示讓客戶眼前一亮的產品
主持人:你能談談谷歌 Mariner(智能體原型)嗎?
Josh Woodward:我們 2024 年 12 月推出 Mariner,試圖了解讓這些模型控制你的電腦或浏覽器會發生什麼。我們用 84 天開發了 Chrome 擴展程式,讓用戶能直接體驗。現在,Anthropic、OpenAI、谷歌和其他初創公司都在探索類似方向,即模型不僅能處理知識、信息、寫作,還能滾動頁面、打字、點擊,甚至在後台同時處理多個任務。
對于 Mariner,我們短期要解決的問題是它能否在浏覽器中完成任務?但更長遠的目标是,當我們擁有這樣的東西時,人機互動的未來會是什麼樣子?
主持人:Mariner 的理想應用場景是什麼?
Josh Woodward:它可能不在消費者端,而是企業端。我們在對 Mariner 進行用戶調查研究時發現,它能夠幫忙處理高重復性勞動,很多這樣的活動都出現在企業方面。比如,它們可以成為銷售團隊的一部分,接聽客戶電話,他們已經做好了接下來需要做的所有事情,只是想把這些步驟推廣出去,他們的用戶界面很笨重,運行起來需要很長時間,我想讓 Mariner 完成所有這些工作,這些事情很有趣。
主持人:你是如何測試出這個企業層面的需求的,是用谷歌雲的客戶來測試的嗎?
Josh Woodward:這的确涉及大大小小的企業,我們有很多雲客戶,他們總是希望獲得最新最好的產品,這些都是很好的測試對象。我們也與許多初創公司合作,我們一直在嘗試從市場的不同維度學習。
多年來,我在構建產品的過程中發現,大家都在談論產品的市場契合度。因為早期產品開發階段人們往往過度聚焦產品的迭代,而忽視了市場側的迭代,找到正确的市場定位與打磨產品同樣重要,兩者必須緊密結合。在 Mariner 項目的早期階段,我們面對的問題是,能否讓人工智能模型驅動計算機,這是一項巨大的創新,但目前在準确性和速度方面仍有不足。我們正處于技術可行性驗證階段,接下來需要找到合适的市場。
在早期,我們做了很多事情,而且速度非常快。我經常和產品經理和團隊成員(包括工程師和用戶體驗師)說,創意落地早期不要只看測試出來的各種數據,那都太小了,要觀察客戶的眼睛,當你展示產品時,他們是否眼前一亮?這就是你要關注的信号,在這個階段,藝術比科學更重要。
主持人:谷歌能否利用既有用戶數據打造個性化體驗?
Josh Woodward:我們确實在内部使用自己的數據做了一些事情。比如我個人選擇開啟了很多功能,讓系統全盤接收數據來創造好的東西。不過你會在 Gemini 應用程式中看到類似的功能,用戶可以鏈接不同服務。這其實是一個正在探索的領網域——什麼樣的數據最有趣、最有用,同時需要建立恰當的控制機制,讓用戶相信我們不會把它洩露出去。
目前很多實驗都是用我們自己的數據來測試,在我自己的數據中,我感覺自己有第二個大腦,能更好地幫助我思考。Gemini 模型特别擅長處理上下文,具備驚人的短期記憶能力,這正是我們現在重點開發的一個領網域。
主持人:你認為我們什麼時候能使用足夠精确和快速的計算機來實現以上應用場景?
Josh Woodward:這是另外一個問題,不過确實現在的計算速度有點難實現。不僅是谷歌内部,其他實驗室的情況也是如此。現在比較困難的領網域是,計算機如何精确地定位你想要的東西。另一個需要讨論的問題是人機互動的邊界問題——何時需要人類介入?我們需要設計一種合适的機制,讓用戶能夠自主選擇是否參與操作。目前的人機互動控制機制還非常粗糙,我們需要更精細的權限管理系統。這些是尚未解決的問題。再次重申那個原則,產品要依靠模型變得更聰明、更快、更便宜。
目前谷歌 25% 的代碼由 AI 編寫
主持人:為什麼所有實驗室的研究重點都集中在計算機的使用上?所有的技術恰好在同一時間融合了,就像大家都商量好了似的。
Josh Woodward:這是個有趣的問題,我不知道其他實驗室的具體情況,但我想說,當你閱讀創新的歷史時,你會發現重大發現同一時間出現的情況并不罕見。現在的大模型是一種新的範式,很多人都在某些方面看到了潛力,人員流動和跨實驗室交流也加速了思想的碰撞。這種現象與編程領網域的發展類似,現在已經有了智能體,很多事情正在醞釀中,這非常有趣但也需要保持警惕,别在這場變革中落後了。
主持人:你們的目标是打造從 1 到 100 再到十億級用戶的獨立產品,還是通過 NotebookLM 這類項目找到适合市場的產品後,将其整合到谷歌生态中?
Josh Woodward:最初,我們确實遵循傳統的孵化器模式,将項目培育成熟後剝離。例如,AI Studio 和 Gemini API 現在已移交 DeepMind 運營。但在可預見的未來,像 NotebookLM 這類高度依賴人工智能的項目,我們只會把它放在實驗室裡。我們關注的重點是将這些技術轉化為可持續發展的商業產品。大部分嘗試可能會失敗,但反過來思考,如果所有項目都成功 " 畢業 ",那是不是說明我們還不夠激進?如果我們最終都實現了那些天馬行空的創意,這當然是好結果,反之如果在 100 天内沒有進展的話,我們就及時止損,轉而做下一件事。
主持人:你預測 2025 年最值得關注的創新領網域會是什麼?
Josh Woodward:智能體和 AI 生成視頻領網域已經有很大進展,我們也談到了計算機使用的一些事情。但我覺得需要換個角度思考,我們有個叫《實驗室》的文檔,收集了 82 個關于未來的預測。其實對未來做出預測是很危險的一件事,更别說我們還預測了 82 個了,但我們團隊的思想實驗是,想象你在一個房間裡,天花板突然打開,一個膠囊掉下來,我們跳進去後被帶到 2028 年,獲得五分鍾觀察未來的機會,記錄所見後返回現在,再整理你所看到的内容,那麼知識的未來是什麼?我們站在較高的層次思考這個問題,這 82 個預測中有一個是:知識的未來會呈現無限可重組性,任何輸入都能被轉化為任意形式的輸出。
如果相信這點,我們就會下注,基于這種未來可能性構建產品。回到很多人正在關注或構建的一些產品上,我認為目前還處于視頻生成和智能體發展階段,可能還有一些未被注意到的東西。另外,我認為編程領網域可能還會有重大突破。
主持人:實驗室團隊也會做敲代碼相關的工作嗎?
Josh Woodward:是的。目前谷歌 25% 的代碼都由人工智能編寫,這個比例增長得非常快。編程領網域有兩個發展方向:一是降低門檻,如何讓從未寫過代碼的人也能參與進來,這是一個巨大的機會;二是将專業程式員的工作效率提高 10 倍甚至 100 倍。這兩個方向都很有潛力。
主持人:你認為目前人工智能領網域被過度炒作了什麼?
Josh Woodward:我希望不要在聊天機器人領網域重復投入了,包括谷歌在内。另外,人們盲目地将人工智能塞進各種產品,甚至連人工智能本身都被過度炒作了,我希望大家能更精确地了解人工智能的颠覆性和應用場景。我們應該關注工作流程的問題,而不僅僅是将人工智能生硬地添加到現有產品上。我們可以看到第一代人工智能出來時,各家都争先恐後地推出商業化的應用,都把它視為 "iPhone 時刻 "。當喬布斯在 2007 年走上舞台時,他說這是 iPhone,如果你看看三年後的 App Store,一開始會發現很多無意義的應用程式,但後面就出現了改變生活的應用,這大概就是我們現在在這場人工智能革命中所處的位置,真正的 AI 產品将在近三年開始出現,那時就會看到類似 Uber、Airbnb、Instacart 這樣真正改變生活的應用。
主持人:人工智能的哪些領網域值得關注?
Josh Woodward:我們剛才提到了編程代碼。我認為,如果能推出具有編寫代碼、自我糾錯、自我修復和遷移等功能的代碼模型,軟體開發的速度将發生質變,這将是一個巨大的進步。盡管這個領網域已經被廣泛讨論,但我覺得它的潛力仍被低估了,它應該被更大力地宣傳。
還有一點是,我認為現階段大家還沒有真正消化無限上下文的概念,它可能會涉及一些個性化問題,還關系到類似 "Mariner" 這樣的項目如何持續發展的問題。谷歌在這方面投入了大量資金,因為我們認為這是一個關鍵戰略,關系到以後的工作流程問題,非常重要。
還有品位與設計的價值。當人工智能生成内容成為主流時,好的品位和設計将變得尤為重要。此外,真實性與可信度也将成為核心議題,我們需要重新定義 " 真實 "。這些内容會變得比現在更加重要。
主持人:關于人工智能還有其他不同的見解嗎?
Josh Woodward:第一,現在是人工智能發展的黃金時代,我們正處于一個充滿可能性的視窗期,存在很多機會。第二,除了關注模型競賽和技術迭代之外,更要重視在公司中所構建的價值觀,當前是塑造下一代核心生產力工具的關鍵時期,我們必須想清楚創造這些工具是想取代人類,還是想增強人類的創造力。比如在視頻生成領網域,我支持擴大人類的創造力。矽谷歷史上曾多次出現影響深遠的技術變革,這些變革持續影響了幾代人,既可能帶來福祉,也可能埋下隐患。所以那些掌握着智能技術的開發者們,應該好好利用它們,充分考慮技術帶來的長期影響。