驚！讀取大腦重建高清視頻，Stable Diffusion還能這麼用

今天小編分享的科學經驗：驚！讀取大腦重建高清視頻，Stable Diffusion還能這麼用，歡迎閱讀。

現在，AI 可以把人類腦中的信息，用高清視頻展示出來了！

例如你坐在副駕所欣賞到的沿途美景信息，AI 分分鍾給重建了出來：

看到過的水中的魚兒、草原上的馬兒，也不在話下：

這就是由新加坡國立大學和香港中文大學共同完成的最新研究，團隊将項目取名為MinD-Video。

這波操作，宛如科幻電影《超體》中 Lucy 讀取反派大佬記憶一般：

引得網友直呼：

推動人工智能和神經科學的前沿。

值得一提的是，大火的 Stable Diffusion 也在這次研究中立了不小的功勞。

怎麼做到的？

從大腦活動中重建人類視覺任務，尤其是功能磁共振成像技術（fMRI）這種非侵入式方法，一直是受到學界較多的關注。

因為類似這樣的研究，有利于理解我們的認知過程。

但以往的研究都主要聚焦在重建靜态影像，而以高清視頻形式來展現的工作還是較為有限。

之所以會如此，是因為與重建一張靜态圖片不同，我們視覺所看到的場景、動作和物體的變化是連續、多樣化的。

而 fMRI 這項技術的本質是測量血氧水平依賴（BOLD）信号，并且在每隔幾秒鍾的時間裡捕捉大腦活動的快照。

相比之下，一個典型的視頻每秒大約包含 30 幀畫面，如果要用 fMRI 去重建一個 2 秒的視頻，就需要呈現起碼 60 幀。

因此，這項任務的難點就在于解碼 fMRI 并以遠高于 fMRI 時間分辨率的 FPS 恢復視頻。

為了彌合影像和視頻大腦解碼之間差距，研究團隊便提出了 MinD-Video 的方法。

整體來看，這個方法主要包含兩大模塊，它們分别做訓練，然後再在一起做微調。

這個模型從大腦信号中逐步學習，在第一個模塊多個階段的過程，可以獲得對語義空間的更深入理解。

具體而言，便是先利用大規模無監督學習與 mask brain modeling（MBM）來學習一般的視覺 fMRI 特征。

然後，團隊使用标注數據集的多模态提取語義相關特征，在對比語言 - 影像預訓練（CLIP）空間中使用對比學習訓練 fMRI 編碼器。

在第二個模塊中，團隊通過與增強版 Stable Diffusion 模型的共同訓練來微調學習到的特征，這個模型是專門為 fMRI 技術下的視頻生成量身定制的。

如此方法之下，團隊也與此前的諸多研究做了對比，可以明顯地看到 MinD-Video 方法所生成的圖片、視頻質量要遠優于其它方法。

而且在場景連續變化的過程中，也能夠呈現高清、有意義的連續幀。

研究團隊

這項研究的共同一作，其中一位是來自新加坡國立大學的博士生 Zijiao Chen，目前在該校的神經精神疾病多模式神經成像實驗室（MNNDL_Lab）。

另一位一作則是來自香港中文大學的 Jiaxin Qing，就讀專業是信息工程系。

除此之外，通訊作者是新加坡國立大學副教授 Juan Helen ZHOU。

據了解，這次的新研究是他們團隊在此前一項名為 MinD-Vis 的功能磁共振成像影像重建工作的延伸。

MinD-Vis 已經被 CVPR 2023 所接收。

參考鏈接：

[ 1 ] https://mind-video.com/

[ 2 ] https://twitter.com/ZijiaoC/status/1660470518569639937

[ 3 ] https://arxiv.org/abs/2305.11675