今天小編分享的科學經驗:谷歌AI新星轉投Pika:視頻生成Lumiere一作,擔任創始科學家,歡迎閲讀。
視頻生成進展如火如荼,Pika 迎來一位大将——
谷歌研究員 Omer Bar-Tal,擔任 Pika創始科學家。
一個月前,還在谷歌以共同一作的身份發布視頻生成模型Lumiere,效果十分驚豔。
當時網友表示:谷歌加入視頻生成戰局,又有好戲可看了。
Stability AI CEO、谷歌前同事等在内一些業内人士送上了祝福。
Lumiere 一作,剛碩士畢業
Omer Bar-Tal,2021 年本科畢業于特拉維夫大學的數學與計算機系,随後前往魏茨曼科學研究所攻讀計算機碩士,主要聚焦于影像和視頻合成領網域的研究。
其論文成果多次被頂會接收,比如 Text2LIVE(ECCV 2022 Oral)、MultiDiffusion(ICML 2023)、TokenFlow(ICLR 2024)。
以 TokenFlow 為例,他們提出了一種框架,基于擴散模型實現文本驅動的視頻編輯,支持視頻編輯任務無需任何訓練或微調。
此次加盟 Pika 前,他曾是谷歌研究院以 Student Researcher 身份待了 9 個月,最終經過 7 個月的研究以共同一作身份推出了Lumiere。這時候碩士應該還沒有畢業。
Lumiere 的創新點在于,提出了時空 U-Net(STU-Net)架構:将視頻在空間和時間兩個維度同時進行下采樣和上采樣,在網絡的中間層得到視頻的壓縮時空表示。
在學習了 3000 萬視頻之後,Lumiere 可支持文生視頻、視頻編輯修復、圖片轉視頻以及視頻風格化等多種功能。
當時 Jeff Dean 盛贊:多模态視頻生成革命正在發生。
威爾史密斯吃面(Pika 版)
官宣加盟 Pika 消息之後,官方以及投資人等也送上了祝福。
前幾天,還有位 Pika 華人研究員 Yilun Du 發布了篇文章, 不過應該剛從 MIT 博士畢業(也可能還沒畢業),論文部門仍是 MIT。
另外在官網還在繼續招人中。
對了,他們剛剛發布了威爾史密斯吃面(Pika 版),來看看這個效果如何?