今天小編分享的科技經驗:Midjourney 創始人Holz:人工智能應該是思想的延伸,歡迎閱讀。
在近期的 WAIC 2023 產業發展論壇上,Midjourney 的創始人兼首席執行官 David Holz 以視頻的方式發表演講。David Holz 在演講中表達了自己對于中國的喜愛,并透露 Midjourney 的名字就出自道家的《莊子》。Holz 還在演講中透露了 Midjourney 下個版本的功能,以及他本人對于人工智能產品的開發。
以下為 David Holz 演講實錄:我是 Midjourney 的創始人兼首席執行官 David Holz。 感謝陳先生和上海市政府今天的邀請。 我很榮幸參與此次 WAIC,我期待有一天能親自到場參與。
Q:請問 Midjourney 為 AI 行業做出了怎樣的貢獻,對藝術家、設計師和媒體制作人意味着什麼?A:我認為世界上最重要的技術之一是引擎。 引擎是產生、傳遞和放大行動的機器。我們用引擎來建各種車輛、飛機和船只。重要的是,要把人工智能看作是一種新的引擎。 在 Midjourney,我們正試圖用這種引擎來建造一種新的車輛,不是一種實體的交通工具,而是我們思想和想象力的交通工具,就像你用汽車在世界中行動一樣。我希望我們可以創造一種交通工具,不是用來移動,而是想象。我認為在我們創造之前,首先必須想象,我們能成為什麼?我們能去哪裡?想想我們的一切可能。我認為正在制造的工具比任何東西都更注重放大想象力的原始力量。 我認為從廣義上講,這是一個機會,整個人類可以有效的想想。
Q:您提到在 Leap Motion 構建硬體時曾訪問過中國,您能告訴我們跟讀歐冠與您與中國和上海的聯系嗎?A:我過去曾多次帶着 Leap Motion 訪問中國。 Leap Motion 的第一個國際辦公室在上海,我很喜歡上海的環境和風格,感覺古典與現代共存,像是各種城市。比如舊金山、紐約、歐洲一些古老城市和中國風格在一個地方可以同時享受。 它有那種古老歷史的力量,有一種現實和未來的興奮,那真的是非常,非常的酷。我最喜歡讀的兩本書是科幻小說和中國古代文學。 我認為中國古代文學有一些最美麗、對人類歷史有深度的思考。 Midjourney 這個名字實際上來自我最喜歡的一個道家書籍一個譯本,它來自《莊子》。我喜歡這個名字。 我之所以喜歡 " 中道 " 翻譯的這個詞,是因為我覺得有時候很容易忘記過去。 很容易產生這樣的感覺,對未來感到迷失和不确定。但更多的是,我覺得我們實際上是在旅途中,我們來自這個豐富和美麗的過去。 而在我們面前的是這個瘋狂和不可想象的寶貴未來。
Q:恭喜 Midjourney 推出了 V5.2!您能告訴我們更多關于 MidJourney 的最新功能以及未來版本的計劃嗎?A:因此,我們最近發布了 5.2 版本的 Midjourney,在主要版本發布之前開發 5.3. 我希望稱之為第六版。 我們引入的最新功能是擴圖,并能通過文本提示進行生成。所以當你放大時,你可以圍繞中心主題創造不同的故事。本周我們發布了一個類似的功能,也就是 PAN,他允許用戶平移鏡頭。然後當你橫向移動相機時可以不斷改變提示,然後講故事。我們還發布了 /weird 這個智靈功能,這是一種結合起來,能對影像進行更多控制的方法。 你可以把它和 /style 功能結合起來。名字有點混亂,但想法是你要能夠告訴人工智能做出多麼漂亮的東西,以及你願意冒多少風險,使這種美變得不傳統、混亂的,怪異一點的。這讓人們可以控制風險性和随機性之間的平衡,也可以控制對影像的傳統美感的關注程度。我們還引入了我們稱之為渦輪模式的東西。 渦輪模式是指我們盡可能多地使用 GPU,使影像生成變得非常快。 我想他快樂 4 或 5 倍。 我想你實際上是在同時使用 64 個 A100 顯卡,這相當于超過一般的 100 我哪美元的計算機。這有點瘋狂,但我們還在研究更瘋狂的技術。雖然一些功能實現還需要很長時間,但我們認為随着時間推移,Midget 将發展到不僅創造 2D 影像,還可以創造 3D 影像、移動影像以及和像素直接互動。所有的一切都在不斷的流動和改變, 完全根據畫面風格試試相應。也許在未來,人們可以有一個巨大的人工智能處理器,所有這些不同的世界和夢境與我們的思想互動。
Q:由于生成模型和擴散模型的出現,人工智能的能力似乎有了顯著的飛躍。您如何評價迄今為止這些領網域的進展?其他人工智能領網域呢?
A:關于 Diffusion 模型、transformer 模型和 GLIP 模型的發現發現讓我真正進入了影像空間。 那是大約 2 年前,在任何服務出來之前,我們只是在舊金山讨論。我記得所有的研究人員都說,當時我覺得覺得這些,特别是 Diffusion 模型在出現時讓我感到非常不同,尤其是與過去最先進的 GAN 模型相比,那是以前大家用來生成影像的東西。我只記得每個人都以一種不尋常的方式立即點頭,說 Diffusion 模型真的很不一樣。這感覺的真的很真切,感覺像是我必須參與的事情,并試圖帶來一個更人性化的用戶界面。但就未來而言,很難确切地知道技術是什麼樣子的。 有時我們現在談論語言模型将如何向 Diffusion 模型發展,也就是說,也許我們會使用 Diffusion 模型來制作文本。 或者影像模型會變得更像語言模型。或者蔚來可能會變成混合模型。 這真的很難說。 我認為我們在這個領網域僅僅只是開始,但我百分之一百确定有很多進展要去的。 10 倍甚至 100 倍的進展是很有可能的。 在這個層面上的進步不僅僅是在原始性能上,而是在用戶界面和產品上,這些產品允許我們使用這些原始技術,無論單獨使用還是共同使用,制造真正的酷的東西,它們可以變得更好并解決問題。
Q:我們如何以更人性化的方式使用人工智能?Midjoyrney 對此有何看法?A:Douglas Engelbart 實際上是第一個創造文本編輯器的人。 那個時候用的是打孔卡,在卡上打孔來給計算機編程。但後來 Douglas 想了想說,如果我們用計算機編程會怎麼樣?這在當時聽起來很瘋狂。 這個想法是,通過在計算機上編程,可以加速循環,使我們更有效的操作,使計算機變得更好并放大一切。那個想法成功了,雖然我們有這些不同的文化,如人工智能,還有 hci(人機界面),智能應用文化,但我認為到目前為止,技術上的大部分進步都來自于努力讓人變得更有效,并增強人們的能力。 其實我們還沒有真正看到所謂的 AGI 時代真正到來。比如一些獨立的 AI 自己獨立的操作,無需用戶互動。去解決一些問題,我認為如果我們在這方面想的太多,我們可能錯過技術領網域的很多機會。我想了很多,不僅僅是人工智能能做什麼,而是如何在不同的事物之間創造流動和羁絆,因為一個工具不應該感覺像一個人。 它應該感覺是你自己、你的身體,你的思想的延伸。我想了很多關于如何建立這些技術,這種交織感覺應該不是你在和藝術家一起工作,而是你幾乎只是在想象一些東西,然後它就出現在螢幕上。 很多人這樣描述了 Midjounery 給他們的感覺,感覺這幾乎是他們思想的一部分。 我認為這就是很多人工智能應該是這樣的,他應該感覺像是我們的延伸。 所以我想再次感謝陳先生和所有的觀眾,很高興參加這次活動,希望下次能到現場參加。。我期待能與中國有更多的合作,我記得我在中國的所有美好經歷,希望大家也喜歡與中國的互動。 謝謝。