今天小編分享的互聯網經驗:毫無延遲,最自然的互動,ChatGPT版的《Her》來了,然後這還不是GPT-5?,歡迎閲讀。
OpenaAI 給 2024 年 5 月 14 日的這場發布會取名 " 春季功能更新 ",就像它們形容當初 ChatGPT 的發布是一次 " 低調的研究預覽 " 一樣。
而就像那次一樣,一切也都回不去了。
OpenAI 發布了一個叫做 GPT-4o 的新模型,它的确不是 GPT-5,但看了它能做的事情,再想到它甚至不是 OpenAI 正在砸更多的錢和智慧在做的 GPT-5,你只會感覺更 " 可怕 "。
發布會一開始,OpenAI 的 CTO Mira Murati 介紹了新模型 GPT-4o(是的,Sam Altman 全程沒有現身)。她強調這個模型是要給所有人使用,并且通過互動的更新讓人們忘了 UI 的存在。因為 OpenAI 的願景正是如此。
而到此這似乎還很正常。
" 不過是新模型而已嘛。"
但直到 demo 環節開始,一切越來越離譜。
首先是一個實時對話的展示。
" 我正在做 demo,我有點緊張。"Mark 説。然後他開始故意喘息的非常快。而 GPT 識别出了他的呼吸。
" 哦,哦,哦,别緊張,慢下來。你不是個吸塵器。"ChatGPT 的女人聲音抑揚頓挫,沒有任何延遲。
是沒有任何延遲。你不需要等她,她也不會讓你等,當你直接開始説接下來的話,她會立刻停下來聽,并立刻做出調整。
(插入視頻)
而且在這些回答中,它甚至有喘息和猶豫的聲音。
另一個很可怕的細節是,這些 demo 全程不需要任何多餘的按鍵操作。
對,聲音的對話就像是在 " 打電話 "。
另一個 demo 是假設要給朋友講一個關于機器人的睡前故事。
提出需求後,ChatGPT 開始正常的講故事。
但聽的人并不喜歡,于是直接打斷説,能不能講的更有感情更 drama 一點。
ChatGPT 立刻調整,增加了一些懸疑感。
" 不不不,我希望把感情和 drama 感拉滿。" 聽者再次直接打斷。——也就是説 ChatGPT 在實時聽着你的聲音。
然後 ChatGPT 變成了一個非常浮誇的故事講述者。
" 你能不能用機器人的聲音給我講故事。"Mira 又直接插話。
而 ChatGPT 立刻開始模仿機器人。注意,是模仿,也就是它的聲音一直是那個女聲,一切聽起來就像家長在講睡前故事時候會做的那樣。
" 你能最後唱一首歌把這個故事結束麼。" 聽者又提了要求。
然後 ChatGPT 立刻唱了一首歌。根據剛才的故事,實時,改編,并直接唱出來的一首歌。
" 如果你之前使用過我們的語音模式,你會注意到幾個關鍵的區别。首先,你現在可以打斷模型了。你不需要等它結束你的回合,你可以随時開始説話,随時插話。其次,模型的響應是實時的。這意味着你不需要再經歷那種尴尬的兩到三秒的延遲,等待模型回應。最後,當我剛才呼吸非常急促時,模型能夠感知到情緒。它會提醒你,或許你需要放松一下,你的節奏快得有點過頭了。所以你知道,它确實具有全面感知情緒的能力。不僅如此,這個模型還能以各種不同的情感風格生成聲音,它真的具有非常廣泛的動态範圍。"
如果你是個創業者,或者熟悉大模型應用創業環境的人,你會立刻意識到。
又有一批創業公司死了。
之後是視覺能力的展示。
對,在同一個產品上。一個據説要免費提供給全世界所有人的產品上。
他先是展示了一個通過攝像頭獲得視覺能力,然後實時指導你的數學解題的 demo。
甚至因為 " 幻覺 " 問題,ChatGPT 在還沒打開攝像頭時候就自信滿滿的説理解了。當展示者提示後,她説 "oops,我太興奮了。"
然後展示者打開攝像頭,實時寫了一個數學方程題,然後讓 ChatGPT 一步一步的提醒和講解他在做的解題思路。ChatGPT 很好的做到了。
像一個很有經驗有耐心的數學老師那樣。
這還沒完。
似乎是為了打臉那些錄制好加速後的 demo,他們還實時收集了 X 上的反饋。其中一個挑戰是:打開攝像頭讓 ChatGPT 實時分析你的情緒。
展示者開始攝像頭自拍,而 ChatGPT 立刻分析道:
" 你看起來是個桌子。" ——因為打開攝像頭時,最先打開的是前置的攝像頭,對準的是桌子。
" 不不不,那是之前的,你不用擔心,我不是個桌子。" 分享者説到。
" 哈哈,那就合理了。"Chat GPT 説到。
這裏看的時候,估計很多人跟我一樣驚了一下。
然後 ChatGPT 立刻分析:" 你看起來非常開心。大大的笑容,甚至有一點興奮。你想分享一下讓你這麼開心的原因麼?" 語氣裏甚至能聽到好奇,以及斟酌語句的感覺。
" 因為我在做實時展示,讓大家看看你有多出色。" 講者説。
" 哦,拜托,别讓我臉紅了。"ChatGPT 帶着笑聲説到。
瞬間,《Her》降臨。科幻成了現實。
看到這,所有人估計都明白了 Sam Altman 此前賣關子時候説的 "magic" 是什麼。
在驚嘆之餘,還是再總結一下:
1 這些操作全程沒有多餘的點擊操作的互動。
2 沒有絲毫延遲的視覺和聲音反饋。
3 不僅能感受到你的情感,ChatGPT 也自帶情緒和情感。
4 能對桌面等更數字化的世界有更全面的信息感知。
5 全部集成在一個產品裏,而且可能是對所有人免費的。
哦對,以及,這還不是 GPT-5。
發布會後,OpenAI 也在官網更新了這次發布的模型的具體信息:
https://openai.com/index/hello-gpt-4o/
還記得 ChatGPT 第一次出來時,有人形容跟它第一次親密接觸的感受:
當你通過打字跟它互動的時候,等待它回答的過程仿佛能想象到對面坐着一個人,正在轉筆,思考如何回答你的問題。
而今天,不只是你的嘆氣,情感和喘息能被 AI 感受到,你也能直接感受到對面的 " 人 " 的嘆氣,情感,和喘息。
在電影《Her》裏,主角最終愛上了這個 AI 助手。我們不知道 GPT-4o 加持下的新 ChatGPT 會帶來什麼。更不知道 GPT-5 出現後會發生什麼。
一切都太快了,都回不去了。
最後,對所有開發者和創業者,這次發布又意味着什麼?
也許這句當時有些被人不以為意甚至覺得冒犯的話值得再看一遍,它可能説明了一切:
目前有兩種構建人工智能的策略:一種是假設模型不會改進,然後在現有的能力上建設一堆小東西;另一種是假設 OpenAI 将保持相同的增長軌迹(繼續瘋狂迭代)。我認為,95% 的人應該押注在第二種策略上。我們有改進模型的使命,不是我不喜歡你們,但我們将碾壓你。
—— Sam Altman,2023 年 4 月 17 日