今天小編分享的财經經驗:不侵入大腦,如何解讀心聲?,歡迎閲讀。
圖片來源 @視覺中國
文 | 追問 NextQuestion
談到腦機接口,通過侵入方式記錄大腦信号,解讀人類的所思所想已不是什麼新鮮事。
已有不少研究成功實現了從大腦信号中解碼語音發音和其他運動信号,來恢復受試者已經喪失了的説話能力。雖然有效,但這些解碼器都要通過神經外科手術接入大腦,并不适用于大多數場景。
那麼,非侵入的方式有用嗎?
以往,使用非侵入性記錄的解碼器(non-invasive decoder)只能從一小組字母單詞或短語中識别刺激,一直具有較大的應用局限性。而近日,一篇發表在 Nature Neuroscience 上的研究介紹了一種新型的非侵入式解碼方式,它使用功能性磁共振成像 ( fMRI ) 記錄從語句意義的皮層表征中重建連續的自然語言。這種非侵入式的腦機接口可用于識别感知、想象和沉默視頻中的意義,并生成可理解的單詞序列。研究證明了非侵入式語言大腦 - 計算機接口的可行性。
▷圖注:論文封面
侵入大腦,如何解碼語言?
這項研究介紹了一種新型解碼器,它采用非侵入性 fMRI 大腦記錄,并能以連續的自然語言重建受試者正在聽到或想象的任意刺激。
為了将單詞序列與受試者的大腦反應進行比較,研究者訓練出一個編碼模型,預測受試者的大腦如何對自然語言中的短語做出反應。試驗記錄了 3 名受試者在聽叙事故事 16 小時内大腦的 fMRI BOLD 反應,并以此為每個受試者構建編碼模型,然後訓練該模型,使其能夠根據刺激詞的語義特征預測大腦的反應。編碼器将大腦反應輸入到解碼器,再由解碼器将其翻譯為一組候選單詞序列并進行評分,并保留最有可能的單詞序列(波束搜索算法)(圖 1)。該語義解碼器使用的波束搜索算法能有效改善 fMRI 低時間分辨率對預測結果準确度的影響。
▷圖 1:語義解碼器的訓練流程圖 圖片來源:Nature Neuroscience
結果發現,解碼出的單詞序列不僅捕獲了刺激的含義,甚至預測了精确的單詞和短語。
▷圖 2:志願者聽到的語句(左)和解碼器根據大腦活動解讀的語句(右),藍色代表完全一致的詞匯,紫色代表大意準确的詞匯
為了量化解碼性能,研究還使用幾個 " 語言相似性 " 度量來比較一則測試故事(1800 個單詞)的解碼和實際單詞序列(圖 3)。通過一系列語言相似性的度量,解碼器所預測結果與實際單詞的相似性、解碼分數、識别準确率顯著高于偶然與随機。
▷圖 3:語義解碼器解碼性能量化。
語言信息藏在大腦皮層何處?
為了回答哪些皮層網絡代表了足夠詳細的語言,以及不同的網絡(或半球)在語言處理中是互補還是冗餘的等問題,研究将大腦數據劃分為三個皮層網絡:經典語言網絡、頂葉 - 颞 - 枕葉聯合網絡和前額葉網絡(圖 4)。研究者從每個半球的每個網絡中單獨解碼後發現,來自每個半球的每個網絡的解碼器預測與實際刺激的相似性顯著高于随機預期。
▷圖 4:皮層網絡劃分
研究者還計算了每個網絡解碼性能的時間過程,發現從整個大腦中顯著解碼的大多數時間點都可以從聯合網絡(77%-83%)和前額葉網絡(54%-82%)中進行解碼(圖 5)。他們同樣比較了跨網絡和跨半球的解碼器預測,發現每對預測之間的相似性顯著高于随機。這表明,這些皮層網絡承載了大量冗餘信息,未來腦 - 機接口或許可以選擇性地從最容易接近的大腦區網域進行記錄(而非特定的腦區)來獲得良好的解碼性能。
▷圖 5:語義解碼器用于不同皮層網絡的解碼效果
應用:非侵入性語言解碼器用在哪裏?
為了探索這種新型解碼器的應用價值,研究者在故事預測期間使用大腦反應為每個受試者訓練了單個語義語言解碼器,然後将其應用于其它任務期間的大腦反應上。
· 想象語音解碼:根據大腦想象過程中的活動進行解碼。針對每一個故事,将解碼器根據受試者想象預測的故事與受試者在不進行掃描時描述的故事進行比較,正确地識别出了哪個預測結果對應于哪個故事(100% 正确率)。
· 跨模态解碼:針對非語言任務進行語言重建。使用 fMRI 記錄受試者觀看了四部沒有聲音的短片時的大腦活動并使用語義語言解碼器進行解碼。将解碼後的單詞序列與針對視障人士的電影音頻描述進行比較,發現解碼的序列準确地描述了來自電影的事件。這表明,在故事感知過程中訓練的單個語義解碼器可以用于解碼一系列語義任務。
· 注意力解碼:語義表征受到注意力的調節,照理語義解碼器應該有選擇地重建被關注的刺激。為了測試這一點,實驗對象聽了兩次重復的多個説話者刺激,該刺激是通過暫時疊加由女性和男性説話者講述的兩個故事來構建的。在每次演講中,受試者都被提示去聽不同的演講者。解碼器的預測與受試者描述的故事表現一致,表明解碼器選擇性地重構了被關注的刺激。
· 隐私影響:語義解碼的一個重要的倫理考慮是它可能會損害精神隐私。研究試圖使用根據其他受試者的數據訓練的解碼器來解碼每個受試者的感知語音。結果表明,受試者合作對于解碼器訓練仍然是必要。而且,語義解碼可以被有意識地抵制。
借鑑:數據噪聲從何而來?
為了進一步改進解碼器的解碼效果,研究還評估了解碼錯誤是否反映了大腦記錄中的随機噪聲、模型設定錯誤還是兩者兼而有之。結果發現,除了訓練和測試數據中的随機噪聲之外,模型設定錯誤是解碼錯誤的主要來源。
為了評估解碼性能是否受到訓練數據集大小的限制,研究使用不同數量的數據來訓練解碼器。雖然解碼性能随着訓練數據量的增加而提高,大多數改進發生在第七次掃描會話時,即 7.5 小時,這表明簡單地收集更多數據可能不會顯著提高解碼性能。
此外,測試數據中的低信噪比(SNR)也可能會限制可以解碼的信息量。研究發現,通過對不同重復測試故事期間收集的大腦反應進行平均來人為增加信噪比,解碼性能随着平均響應的數量而略微增加,這表明解碼誤差的一些分量反映了測試數據中的噪聲。值得注意的是,解碼性能與訓練刺激中的詞頻沒有顯著相關性,這表明模型的錯誤設定不是主要由訓練數據中的噪聲引起的。此外,研究者還發現解碼性能與單詞具體性的行為評級顯著相關,這表明解碼器在重建具有某些語義屬性的單話方面較差。
袁則博士總結道,這項研究表明感知和想象刺激的意義可以從 fMRI 記錄中解碼為連續的語言,這标志着非侵入性腦機接口的重要一步。雖然解碼器成功地重建了語言刺激的意義,但它經常無法重建準确的單詞且可能會發生特異性的損失。另外,主體反饋是提高解碼性能的重要因素,這種反饋允許受試者适應解碼器,為他們提供對解碼器輸出的更多控制。
研究中主要使用了兩種方法進行解碼:一是逐詞生成候選序列的 " 波束搜索算法 "。在波束搜索中,當基于聽覺和語言區網域的大腦活動檢測到新單詞時,語言模型為波束中的每個候選序列生成延續。然後,編碼模型對每次延續誘發記錄的大腦反應的可能性進行評分,最有可能的延續被保留在下一時間步的波束中;另一種方法是 GPT,預訓練生成的 GPT 是一個 12 層的神經網絡,它使用多頭自我注意機制将序列中每個單詞的表示與之前單詞的表示相結合。GPT 在一個大的書籍語料庫上被訓練來預測下一個單詞的概率分布。
參考文獻 :
Tang, J., LeBel, A., Jain, S. et al. Semantic reconstruction of continuous language from non-invasive brain recordings. Nat Neurosci 26, 858 – 866 ( 2023 ) . https://doi.org/10.1038/s41593-023-01304-9:https://nautil.us/your-brain-is-shaped-like-nobody-elses-297950/
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App