Midjourney 創始人Holz：人工智能應該是思想的延伸

今天小編分享的科技經驗：Midjourney 創始人Holz：人工智能應該是思想的延伸，歡迎閱讀。

在近期的 WAIC 2023 產業發展論壇上，Midjourney 的創始人兼首席執行官 David Holz 以視頻的方式發表演講。David Holz 在演講中表達了自己對于中國的喜愛，并透露 Midjourney 的名字就出自道家的《莊子》。Holz 還在演講中透露了 Midjourney 下個版本的功能，以及他本人對于人工智能產品的開發。

以下為 David Holz 演講實錄：我是 Midjourney 的創始人兼首席執行官 David Holz。感謝陳先生和上海市政府今天的邀請。我很榮幸參與此次 WAIC，我期待有一天能親自到場參與。

Q：請問 Midjourney 為 AI 行業做出了怎樣的貢獻，對藝術家、設計師和媒體制作人意味着什麼？A：我認為世界上最重要的技術之一是引擎。引擎是產生、傳遞和放大行動的機器。我們用引擎來建各種車輛、飛機和船只。重要的是，要把人工智能看作是一種新的引擎。在 Midjourney，我們正試圖用這種引擎來建造一種新的車輛，不是一種實體的交通工具，而是我們思想和想象力的交通工具，就像你用汽車在世界中行動一樣。我希望我們可以創造一種交通工具，不是用來移動，而是想象。我認為在我們創造之前，首先必須想象，我們能成為什麼？我們能去哪裡？想想我們的一切可能。我認為正在制造的工具比任何東西都更注重放大想象力的原始力量。我認為從廣義上講，這是一個機會，整個人類可以有效的想想。

Q：您提到在 Leap Motion 構建硬體時曾訪問過中國，您能告訴我們跟讀歐冠與您與中國和上海的聯系嗎？A：我過去曾多次帶着 Leap Motion 訪問中國。 Leap Motion 的第一個國際辦公室在上海，我很喜歡上海的環境和風格，感覺古典與現代共存，像是各種城市。比如舊金山、紐約、歐洲一些古老城市和中國風格在一個地方可以同時享受。它有那種古老歷史的力量，有一種現實和未來的興奮，那真的是非常，非常的酷。我最喜歡讀的兩本書是科幻小說和中國古代文學。我認為中國古代文學有一些最美麗、對人類歷史有深度的思考。 Midjourney 這個名字實際上來自我最喜歡的一個道家書籍一個譯本，它來自《莊子》。我喜歡這個名字。我之所以喜歡 " 中道 " 翻譯的這個詞，是因為我覺得有時候很容易忘記過去。很容易產生這樣的感覺，對未來感到迷失和不确定。但更多的是，我覺得我們實際上是在旅途中，我們來自這個豐富和美麗的過去。而在我們面前的是這個瘋狂和不可想象的寶貴未來。

Q：恭喜 Midjourney 推出了 V5.2！您能告訴我們更多關于 MidJourney 的最新功能以及未來版本的計劃嗎？A：因此，我們最近發布了 5.2 版本的 Midjourney，在主要版本發布之前開發 5.3. 我希望稱之為第六版。我們引入的最新功能是擴圖，并能通過文本提示進行生成。所以當你放大時，你可以圍繞中心主題創造不同的故事。本周我們發布了一個類似的功能，也就是 PAN，他允許用戶平移鏡頭。然後當你橫向移動相機時可以不斷改變提示，然後講故事。我們還發布了 /weird 這個智靈功能，這是一種結合起來，能對影像進行更多控制的方法。你可以把它和 /style 功能結合起來。名字有點混亂，但想法是你要能夠告訴人工智能做出多麼漂亮的東西，以及你願意冒多少風險，使這種美變得不傳統、混亂的，怪異一點的。這讓人們可以控制風險性和随機性之間的平衡，也可以控制對影像的傳統美感的關注程度。我們還引入了我們稱之為渦輪模式的東西。渦輪模式是指我們盡可能多地使用 GPU，使影像生成變得非常快。我想他快樂 4 或 5 倍。我想你實際上是在同時使用 64 個 A100 顯卡，這相當于超過一般的 100 我哪美元的計算機。這有點瘋狂，但我們還在研究更瘋狂的技術。雖然一些功能實現還需要很長時間，但我們認為随着時間推移，Midget 将發展到不僅創造 2D 影像，還可以創造 3D 影像、移動影像以及和像素直接互動。所有的一切都在不斷的流動和改變，完全根據畫面風格試試相應。也許在未來，人們可以有一個巨大的人工智能處理器，所有這些不同的世界和夢境與我們的思想互動。

Q：由于生成模型和擴散模型的出現，人工智能的能力似乎有了顯著的飛躍。您如何評價迄今為止這些領網域的進展？其他人工智能領網域呢？

A：關于 Diffusion 模型、transformer 模型和 GLIP 模型的發現發現讓我真正進入了影像空間。那是大約 2 年前，在任何服務出來之前，我們只是在舊金山讨論。我記得所有的研究人員都說，當時我覺得覺得這些，特别是 Diffusion 模型在出現時讓我感到非常不同，尤其是與過去最先進的 GAN 模型相比，那是以前大家用來生成影像的東西。我只記得每個人都以一種不尋常的方式立即點頭，說 Diffusion 模型真的很不一樣。這感覺的真的很真切，感覺像是我必須參與的事情，并試圖帶來一個更人性化的用戶界面。但就未來而言，很難确切地知道技術是什麼樣子的。有時我們現在談論語言模型将如何向 Diffusion 模型發展，也就是說，也許我們會使用 Diffusion 模型來制作文本。或者影像模型會變得更像語言模型。或者蔚來可能會變成混合模型。這真的很難說。我認為我們在這個領網域僅僅只是開始，但我百分之一百确定有很多進展要去的。 10 倍甚至 100 倍的進展是很有可能的。在這個層面上的進步不僅僅是在原始性能上，而是在用戶界面和產品上，這些產品允許我們使用這些原始技術，無論單獨使用還是共同使用，制造真正的酷的東西，它們可以變得更好并解決問題。

Q：我們如何以更人性化的方式使用人工智能？Midjoyrney 對此有何看法？A：Douglas Engelbart 實際上是第一個創造文本編輯器的人。那個時候用的是打孔卡，在卡上打孔來給計算機編程。但後來 Douglas 想了想說，如果我們用計算機編程會怎麼樣？這在當時聽起來很瘋狂。這個想法是，通過在計算機上編程，可以加速循環，使我們更有效的操作，使計算機變得更好并放大一切。那個想法成功了，雖然我們有這些不同的文化，如人工智能，還有 hci（人機界面），智能應用文化，但我認為到目前為止，技術上的大部分進步都來自于努力讓人變得更有效，并增強人們的能力。其實我們還沒有真正看到所謂的 AGI 時代真正到來。比如一些獨立的 AI 自己獨立的操作，無需用戶互動。去解決一些問題，我認為如果我們在這方面想的太多，我們可能錯過技術領網域的很多機會。我想了很多，不僅僅是人工智能能做什麼，而是如何在不同的事物之間創造流動和羁絆，因為一個工具不應該感覺像一個人。它應該感覺是你自己、你的身體，你的思想的延伸。我想了很多關于如何建立這些技術，這種交織感覺應該不是你在和藝術家一起工作，而是你幾乎只是在想象一些東西，然後它就出現在螢幕上。很多人這樣描述了 Midjounery 給他們的感覺，感覺這幾乎是他們思想的一部分。我認為這就是很多人工智能應該是這樣的，他應該感覺像是我們的延伸。所以我想再次感謝陳先生和所有的觀眾，很高興參加這次活動，希望下次能到現場參加。。我期待能與中國有更多的合作，我記得我在中國的所有美好經歷，希望大家也喜歡與中國的互動。謝謝。