今天小編分享的互聯網經驗:金璐瑤:AI模型已從單線程發展為多線程,這改變了人類和AI的互動過程,歡迎閱讀。
12 月 21 日,阿裡巴巴通義實驗室產品負責人金璐瑤做客由華爾街見聞和中歐國際工商學院聯合主辦的「Alpha 峰會」,就 AI 應用演進和背後的助推力做出分析、展望。
以下為演講精彩觀點:
上一代 AI 模型中,大語言模型是一個基座,生成影像、增強搜索都是插件,應用在大模型之上,這會局限 AI 模型表達的形态。所以目前,大家更傾向于把大模型作為能力的本身,這樣子 AI 模型包裝出來的應用形式會多種多樣。
最早的一些的模型是單線程,而現在已經發展成一個多線程的過程,AI 模型開始能夠舉一反三,解答從來沒有見過的問題。這改變了人類和 AI 互動的過程,比如做會議紀要,以前可能需要用到非常多不同模态的能力,現在有機會把它拼合在一起,AI 可以做總結、整理郵件、列出日程計劃,成為真正的工作生活助手。
大模型時代的到來,利好充滿創意的人,AI 模型能夠以一種高效、新穎的方式幫助人類。
以下為讨論實錄:
大家好,我叫金路瑤,我來自于通義產品部,我是產品的負責人。那我今天跟大家分享的這個東西,也是我們差不多整個通義在跑下來以後有一些成功的經驗,當然去掉了一些失敗的經驗。
我剛才聽陳老師在上一趴,也跟大家從投資人的角度其實講的特别好,就是可以跟我這趴完全完美的銜接在一起,那我們可以來看一下,到底今天什麼東西是 ready 的,以及它背後的東西是什麼。
那我回到的是說它背後的東西是什麼?那我相信各位校友們應該比我清楚的是,那經濟背後有一個不可見的手,對吧?那我們今天 AI 應用落地或者是工具落地,它其實同時也存在一個看不見的手,就是我們的模型能力。那剛才陳老師也說了,那今天在這個市場上什麼是 ready 的?什麼是不 ready 的?但其實很多的時候我們會發現尋找邊界的這個過程是非常有意思。
那舉個例子來講,那我們會發現上一代的模型,那它無論是從文本的一些的問答,包括說現在市面上有很多人在創業做小紅書賬号,抖音的賬号,它去做很多的一些内容,原創的一些的生成。OK,做了很多的,它往往是以一個 chatbot 的一個形态,就是你跟它去做對話,那它是一個什麼樣子的過程?那慢慢的我們叫它協作畫布,那這個可能是一種更加新的一種創作的形式,包括說方式,那我一個個跟大家來做解析。就是說我們今天看到的這個 chatbot,主要是它就是一個 chat 框,那包括說後面出現的,包括說 publicity。那這個框的背後是時候每一個人在學習的過程中,他會不停的去積累他自己的所謂的知識,那知識會幫你們每次在問答問題的時候它被使用到。
今天模型也是同樣的概念,那我們在 8 月份的時候和奧運會,也就是我們的奧組委一起合作做了一個奧運 GPT,那很多的時候就是把奧運歷史的知識給到了今天。什麼意思呢?比方說原來的賽事講解員,他需要在線去搜索很多的一些東西,挑出一個最優的結果,變成我的一個參考物,那今天對于大模型來說,它用它的知識來講是我把所有的結果讀一遍。我覺得哪幾件事情它互補在一起是一個邏輯框架,那我把它整理好像極了你的秘術,那給到你一個具體的結果之後,你可以直接來用。那搜索是什麼?搜索其實本質上大家用百度的時候也是從裡面去找到一個最接近你想要的一個答案。那今天它就是一個知識被閱讀學習總結的一個過程,所以更多的還是基于知識的一個交換,然後我們會看到這個的互動的形式,它極致會拓展到什麼程度?就是類似于我們通義做的是李白數字人。
那剛才我看陳老師也講了 correct AI,那 correct AI 包括說 Mini Max 很多的時候他在做的那一部分的形态,它也是來自于說用一個數字人的形式來表達最優解的一個問答或者是一個知識,那它在第一代的模型,也就是我們稱之為上一代模型的時候,基本上是用這樣子的一個方式來解答今天 audience 的一個問題,或者是你想要去探索的一個答案。
那在這個市面上慢慢就會湧現很多相關的一些產品,比如說為什麼 correct AI 最早的時候就產生了,因為它很能夠和人互動的過程中產生很多的一些的對話,幫你去做一些的輔助。那我們的李白數字人他去做什麼?李白數字人做的是我們今天來到了貴州的一些的鄉村的一些的小學,讓這些的小學生跟李白數字人問答的情況下,來背李白的唐詩,或者是來解答他的生平濟世。那這樣子的一些的事情,我們前段時間也在跟南京博物院一起來合作,包括說在一些的文物復活上、歷史故事的一些解答上,它會有一些創新。
所以我們今天在談模型它是否 ready 的時候,那要談一個問題,什麼是他今天一定 ready 的事情?那這也是我們整個大模型在創業期間我們會去思考的第一個問題,那我們會把它稱之為這一代帶的一個什麼樣?這個市場有痛點,那模型的邊界在哪裡?那我們放出這樣子的互動的產品,希望大家用到它的同時能夠助力你的事業和行業。
那随着模型的演進模型,那這個我現在呈現出來的就是上一代的模型,我們在應用落地的時候的一個架構,你會看到是說今天 large language model 就是一個它的基座,那所有的一些基座都藏在這個框的背後。然後我們所謂的一些模型的一些能力,包括說圖片處理,包括說一些影像的生成、增強的搜索,它其實都是作為一個插件的形式,然後應用在大模型之上。
那這個會產生一個不好的後果,就是它局限了今天表達的形态,它也局限了今天每一個人在使用它的時候的第一步的門檻。 所以我們在這一代創業的時候,我們在應用的創業的時候,我們會更傾向于把今天的大模型作為一個什麼,作為一個原子能力的本身,比如說圖片生成是一個能力。比如說文本問答是一個能力,比如說我們今天打開攝像頭進行一個增強視覺能力的多模态,它是也是一個能力,那這樣慢慢的它包裝出來的形式會有多種多樣的。
舉個例子來講,那今天比如說 canvas,也許大家知道,也許大家不知道,這是我非常喜愛的產品,它從原本局限的大家在跟大模型的一個對話裡面就會變成一個什麼樣子的東西呢。 比如說我曾經聽說過中歐的有一位同學,他可能看到 16 篇論文,然後老師給他布置了一紙試卷,說你在今天可能是周天,你周三的時候就交給我。那可能這樣的作業本身是一個比較難去做的作業,但我今天這個只是一個打趣,那這位同學他就把那十幾個論文直接上傳到 ChatGPT 裡,然後原本的形式是它只能給你來一問一答,你說這 12 篇文章都說了一些什麼?你給我概括出來。那今天如果是用這樣子的互動形式,你在左邊說你幫我去生成一篇什麼樣子新式的一個論文,我大概告訴你我的策劃的方向是什麼。那然後呢?他會接着來回答你,他相關這 12 篇論文中的一些相關内容有哪一些?然後自動的回答在右邊,然後你會說,唉,這一段我覺得遠遠不夠,我希望他再潤色一下,你去框選一下你希望去潤色的一些内容,他在進行這 12 篇的閱讀的過程中,進行一些更加細節的一些的處理,包括說段落的一些摘要,幫你抽屜出來,然後再補充進這一段的論文中,那它是不是一個更快速的創作的過程呢?
我相信通過這個的一個過程,大家應該可以想到,其實今天文字工作者的創業或者是媒體的創業,它也許會發生一個變革。 那比方說我們最近通義也一直在研究,我們如何通過這個過程幫助浙江日報的各位的記者更高效的去寫他們的一些的社論,包括說一些的新聞,包括說幫助我們每一個普通的用戶去獲取你關注的領網域。今天有可能一共發生了 25 件事,那我有沒有可能每天早上睡醒的時候花個 10 分鍾就讀完?那這一些的過程是怎麼去創意出來的呢?它更多的是通過這樣子的應用的架構去產生的,那這些的模型的能力相對來說是非常 ready 的。那下一步就是說那剛才郎陳老師也說到了 O3 今天早上發布了,那之前更加 ready 說 O1 的這個模型產生了,那他對我們的生活會發生什麼樣的改變?那我還是拿 ChatGPT 來舉例子,那 OpenAI 的兩代模型,其實它的特征反映是說這個業内我們去做模型的這個路徑的時候,會去選擇的一些不同的部分。
比方說 for 它更多的是集中在多模态的一些的能力,但是在它那一代的時候其實并不具備很多思維鏈的一些湧現。說人話是什麼意思?他沒有辦法舉一反三,那在 OE 的這個時代他就能夠去做到這件事情,同時這一部分邏輯推演的一些能力,甚至慢慢的可以去做數學題,去處理奧賽的信息,去做很多的 coding。那我們會發現它的一個區分是在哪裡?最早的是一些的模型,也就是說類似于像 for 這個模型在做它的時候,它其實是一個單線程,也就是我們會發現我們去做一件事情的時候,它的模态和一個記憶,包括說它的一個反思往往是綁定在同一個任務流裡的。那我們人類不怎麼考慮問題,我們其實同時會去思考既有邏輯的部分,又有情感的部分,又會帶入我和你的對話裡面可能曾經發生過的一些的片段。
那這個其實它是一個多線程的過程,不是一個單線程的過程,所以你會發現 o 這一代的模型,也就是無論是 O1、O2 還是 O3,它其實代表的是說我在這一部分的推理的邏輯裡面會更傾向于不同的一些的介質,或者是不同的一些的模态帶給我的一些的反饋,我進行一個綜合的處理,變成一個舉一反三的一個現象,所以這個像極了什麼,就是像極了我們經常在公司裡面評價一個員工,我今天教你了一件事情,我是要教多少遍才能教會你?如果我教一遍就會了,我會說你這個人很聰明,那這也是為什麼說我們會發現到了多線程這一步的時候,我們極具個性,人會去發現是說模型變得越來越聰明了。因為他有這一部分的能力去解決更多的一些的問題,更復雜的一些的任務,甚至于像今天早上 O3 我們看到最興奮的一個點是什麼?他甚至于可以去解答那些他從來沒有見過的問題。 那這個是一個什麼?像極了今天一個科學家你要去解一個别人沒有解答出來的東西,他有辦法去解,也許他解的不好,但是他有辦法,那就代表的是說今天的模型有一個接近于人類智力的水平,當然這個到應用确确實實還有很長一段時間。
但是我們會發現基于 OE 這樣子的一個慢思考,包括說推理的過程,它恰恰改變了很多的互動的存在。那比方說舉個例子講,我們曾經可能要去做一個會議紀要,那你今天需要用到非常多不同的一些的模态的能力,那我們今天就有機會把它拼合在一起,端到端級聯在同一個模型裡面去做一件什麼樣的事情呢?首先開會的時候他來聽,幫你基于每個人不同的聲音做一個 summarize。然後在過程中也許你會打斷他說,我記得我上一次開這個會的時候有那麼一個 action,他是否在這一次有一個?嗯,recap,也許他沒有,那他可以提醒你,那開完會了之後很多人是需要去整理郵件的,包括去整理一些待辦事項,變成一些 agenda,甚至需要 mail 出去。
那它可以一條體系鏈的去結束這件事情,當這個播放按鈕或者是錄音的按鈕按暫停的時候,它自然會生成一個大綱,也就是我們在圖上看到的這一張思維導圖。他會把會議中涉及到的方方面面可能提過的知識點都匯集成一些不同的 tag,或者是不同的一些的内容給你進行展示。 你如果覺得我今天需要以 Email 的形式發出去,你可以要求他把這張的大綱擴充成一段的 Email 寫的要有領導的語氣,或者是寫的要有一個 agenda 的方式。這個都是在過程中模型和你的互動,那所以它可以很好的幫助大家來輔助工作或者是輔助記錄,然後甚至在結束的時候它有一個很關鍵的能力,那也是最近我們一直在看的一個非常有契機也去做好的第一代用戶產品是什麼?就是它可以來幫助每一個人去做課堂筆記。你可以邊聽邊去拍照,然後插入到剛才那段 summarize 裡面,當他幫你整理成 agenda 的時候,你覺得我好像有一段的記知識點沒有看的那麼清晰,我再想復述一遍。那你就去點選它,它會來到那個章節,幫你再擴充知識點,甚至于可以幫你再去聯網搜索,然後把課堂上沒有聽到過的線上的知識再給你進行一次的湧入。 那這個時候極大的方便了我們去學習知識的這個門檻。
然後我們可以看到另外一張圖,我們去做了一個級聯的這個模式是什麼?這個大家看到好像是一張抖音的圖,上面蒙了一個層,其實它是一個翻譯。那我們在今年 8 月份的時候,在雲栖第一次展示了這款產品,也就是大家無論是在跨國會議裡,還是在今天很多的一些場合,比如說要去看一些的美劇,但它可能是生肉,它壓根就沒有字幕。那原本你要做同聲翻譯或者是字幕組,你可能要等兩天同聲翻譯,它有可能是要聽完一整句話它才會給你翻譯下一句話。那今天我們的翻譯的模型,通過剛才多線程的這種模型的連接的方式,它就可以做到秒毫秒級輸出,也就是當這個英文的第一個單詞吐出來的時候,這個的翻譯就出現了。那我們在雲期的時候,義烏的老板娘們聽到了這個非常的瘋狂,就基本上每一個老板娘都不表示這個模型他一定要買,方便他去做出海的這套業務。所以剛才陳老師也說了,我覺得就是說在 p 和 b 這件事情上,可以說今年是非常 ready 的。它有非常多 ToB 的工作,可以做 ToB 的這一些的工作其實只要大家有想象力,那基本上這個工具的創新它是相對來說非常 ready 的。那這也告訴我們的一件什麼樣子的事情,原本最早的時候模型創業,我們叫做 PMF,但可能今天 PMF 是遠遠不夠的。那你會發現 technical 這個事情,它每一個月都會有一些新的東西。然後包括說你每一個月随着你去用不同的一些的模型,你會發現你在改變他的一部分的觀點和觀念。但是我始終是一句話,我們今天很多的時候模型是來輔助人類去學習、去工作、去生活的。他沒有辦法取代你,因為我們今天還處于一個 level two,對不對?那基本上它跟我們也許是碩士畢業的水平具備了一定專業性。那它的知識面是非常相當的,只是今天的模型它具備了非常多個專業的碩士而已,那這個的時候它可以很好地去輔助到你的工作,幫助你去做一些方方面面助理,可以去幫你幹的活,生活助理、工作助理和一些學習助理。
所以這個裡面就我們去分析是說今天一件事情,或者是今天的模型到了哪一步可以去做,那更多的情況下我們希望去平衡的是技術市場和這一部分的用戶痛點,它有沒有合在一起?如果合在一起那就是一個非常好的產品,殲擊也一定能夠站得住。然後另外一點我也想提出這個觀點,也是我們團隊内一直在講的一件事情。就是今天模型的創業或者是大模型的到來,他利好一種類型的人,他非常要有創意,非常的希望去改變曾經已經非常讓你俗套的一些的生活,你希望擁有更高效或者是更新穎的一種方式來幫助到你。
比如說我們最近會看到的是說很多的一些線上的一些工具,大家來到通義上去進行一個 agenda 創作的時候,會有一些很有意。 面試官的一些相關的能力開在這裡,然後對方可能通過視頻進行一個面試的時候,翻譯官自動幫你去答出了一個運營專家最應該回答的一個問題,那能不能說這是一個翻譯工作呢?那雖然說這個 h 裡面有一些 tricky 所在,但是,嗯,可以說這是一個一個人創業的開始,也是一個創業的一個落地。 所以利好所有創意的人士,利好所有文科生,利好所有今天在創意的表達上有自己想法的一些的人,我舉個例子講,我們萬象的平台最近一直在做 x 模型的更新,那它跟我們今天大文本模型完全是兩套的技術棧,你剛才陳老師也講到了一個對于客觀物理世界的一個理解,它和今天文本的模型是兩套,一個代表了你的眼睛,一個代表了你的一個也許是嘴或者是耳朵,那今天不同的這一部分的模型的能力其實能幫助到大家的地方是不太一樣的。 比方說大家也看過 Meta 去和那個 ChatGPT 一起合作的那款眼鏡,其實很多的時候它也代表了說技術的革新,它不一定只發生在螢幕界内,它也會改變每一個硬體。那今天的眼鏡是這個樣子,那今天的項鏈又何其不是這個樣子的?所以大可以更加的多一些的創新去改變你們今天覺得方方面面做不到的一些的事情。可能今天模型都能夠做,那我今天的分享就到這裡,感謝大家。