AI Agent自主設計全新蛋白質登Nature！機器人可自己做實驗，無需人類幫助 - 大酷樂

今天小編分享的科技經驗：AI Agent自主設計全新蛋白質登Nature！機器人可自己做實驗，無需人類幫助，歡迎閲讀。

新智元報道

編輯：Aeneas

【新智元導讀】這個自動化蛋白質設計系統可以自己設計和測試新的蛋白質，不需要人類的幫助。就像一個能自己做實驗的機器人科學家。它能通過自主學習自行進行蛋白質設計，同時在實驗室裏自動進行測試。

AI Agent，已經可以不需要人類幫助，就能自行設計和測試全新的蛋白質了！

這個 AI 能夠自主學習蛋白質結構與功能關系。而且在糖苷水解酶領網域創造出的新蛋白質，比原始蛋白質更穩定。

最近，威斯康星大學麥迪遜分校研究者的這項研究，登上了 Nature 子刊。

自主設計全新蛋白質

蛋白質工程在化學、能源和醫學領網域有着近乎無限的應用，但創造具有新功能的新蛋白質的工作，目前仍然是緩慢、勞動密集且效率低下。

威斯康星大學麥迪遜分校研究者，研究出了用于蛋白質景觀探索的自動駕駛自主機器（SAMPLE）平台，可以用于完全自主的蛋白質工程。

SAMPLE 由智能體驅動，這個智能體會學習蛋白的質序列 - 功能關系，設計新蛋白質，并将設計發送到全自動機器人系統。

這個系統會通過實驗測試設計的蛋白質，并提供反饋，以提高智能體對系統的理解。

研究者部署了四種 SAMPLE 試劑，目的是設計具有增強耐熱性的糖苷水解酶。

實驗結果表明，盡管智能體的搜索行為存在個體差異，但四種藥物都迅速收斂了在熱穩定酶上。

可以説，這種自動駕駛實驗室是自動化的，它加速了科學發現過程，在蛋白質工程和合成生物學領網域具有巨大潛力。

實驗過程

以往，研究者設計生物系統，是通過設計實驗來測試假説，進行實驗後解釋結果數據，完善對系統的理解。

随着過程被迭代，研究者們會收斂生物學機制的知識，并設計出具有改進特性和行為的新系統。

然而，盡管在生物工程和合成生物學方面取得了顯著的成就，但這一過程仍然非常低效、重復和費力，需要多個假設生成和測試周期，可能需要數年時間才能完成。

而機器人科學家和自動駕駛實驗室，可以将自動化學習、推理和實驗相結合，來加速科學發現，設計新的分子、材料和系統。

智能機器人系統可以跨不同數據源和數據模式進行學習，在不确定的情況下做出決策，不間斷地連續運行，通過完整的元數據跟蹤和實時數據共享，生成高度可重復、優于人類的數據。

自動駕駛實驗室在蛋白質工程和合成生物學領網域具有巨大的前景，但這些應用并沒有那麼容易，因為生物表型是復雜和非線性的，基因組搜索空間是高維的。

生物實驗需要多個容易出錯、難以自動化的手動處理步驟。

以前也有一些合成生物學的自動化工作流程的例子，需要一些人工輸入和手動樣本處理，但這些工作流程在沒有人工幹預的情況下，并不是完全自主的。

而本項研究中的這個用于蛋白質景觀探索的自動駕駛自主機器（SAMPLE）平台，無需人工幹預、反饋或主觀性，即可快速設計蛋白質。

平台由智能體驅動，智能體從數據中學習蛋白質序列 - 功能關系，并設計新的蛋白質來測試假設。

智能體通過一個全自動的機器人系統與物理世界互動，通過合成基因、表達蛋白質和執行酶活性的生化測量，來測試設計的蛋白質。

智能體和實驗自動化之間的無縫集成，可以實現完全自主的設計 - 測試 - 學習周期，以理解和優化序列 - 功能環境。

研究者部署了四種獨立的 SAMPLE 試劑，來探索糖苷水解酶的前景，并發現了具有增強熱耐受性的酶。

試劑的優化軌迹從探索性行為開始，目的是了解廣泛的景觀結構，然後迅速收斂到高度穩定的酶上，這些酶比初始序列至少穩定 12°C。

可以觀察到，由于實驗測量噪聲，各個智能體的搜索行為存在顯著差異，但所有智能體在搜索不到整個景觀的 2% 時，都能可靠地識别出熱穩定設計。

SAMPLE 智能體通過主動信息采集不斷完善對景觀的理解，SAMPLE 可以有效地發現優化的蛋白質。

作為一個通用的蛋白質工程平台，SAMPLE 可以廣泛應用于生物工程和合成生物學。

結果：用于蛋白質工程的完全自主系統

在這項工作中，研究者試圖建立一個完全自主的系統，來模仿人類的生物發現和設計過程。

人類研究者可以被視為在實驗室環境中執行操作、接收數據作為反饋的智能體。

通過與實驗室環境的反復互動，人類智能體可以理解系統、學習行為，以實現工程目标。

SAMPLE 由一個智能體組成，這個智能體會在實驗室環境中自主學習、做出決策并采取行動，以探索蛋白質序列 - 功能關系，并設計蛋白質（圖 1a）。

SAMPLE 是一個用于蛋白質工程的完全自主系統

這個蛋白質适應度景觀，描述了從序列到功能的映射，可以想象為山峰、山谷和山脊的陸地景觀。

SAMPLE 智能體，可以從最初未知的序列 - 功能景觀中識别高活性适應度峰值（即性能最佳的序列）。

在這個過程中，智能體會主動查詢環境以收集信息，并構建對景觀的内部感知。

智能體必須在勘探和開發之間分配資源，以了解景觀結構，并利用當前的景觀知識來确定最佳序列配置。

研究者将智能體的蛋白質工程任務視為貝葉斯優化（BO）問題，該問題旨在優化未知的目标函數，并且必須在探索和開發之間進行有效的權衡。

SAMPLE 智能體會使用高斯過程（GP）模型，從有限的實驗觀察中構建對适應度景觀的理解。

這個模型必須考慮感興趣的蛋白質功能，以及由于蛋白質結構不穩定而產生的景觀中的非活性「孔」。

研究者會使用多輸出 GP，同時模拟蛋白質序列是否為活性 / 非活性以及感興趣的連續蛋白質特性。

以先前發表的細胞色素 P450 數據為基準，該數據包括 331 個非活性序列和 187 個帶有熱穩定性标記的活性序列。多輸出 GP 表現出出色的預測能力，具有 83% 的主動 / 非主動分類準确率，并且對于主動序列的子集，預測熱穩定性時 r=0.84

在序列函數數據上訓練的 GP 模型，代表了 SAMPLE 智能體的當前知識，從這裏開始，智能體必須決定接下來要評估哪些序列，以實現蛋白質工程目标。

BO 技術解決了不确定性下順序決策的問題。置信上限（UCB）算法迭代采樣具有最大置信上限（預測均值加預測區間）的點，并被證明可以快速收斂到最佳點，樣本效率高。

然而，UCB 在蛋白質工程中的實現是有限的，因為景觀中的非活動「孔」沒有提供任何信息來改進模型。

因此，研究者設計了兩種啓發式 BO 方法，考慮主動 / 非主動 GP 分類器（P ( active ) ）的輸出，将采樣重點放在功能序列上。

「UCB 陽性」方法僅考慮 GP 分類器預測為活動序列的子集（P ( active ) >0.5），并選擇具有最高 UCB 值的序列。「預期 UCB」方法通過乘以 GP 分類器 P ( active ) 來獲取 UCB 分數的期望值。研究者通過使用細胞色素 P450 數據運行 10,000 次模拟蛋白質工程實驗，來測試這些方法

平均而言，UCB 陽性和預期 UCB 方法僅通過 26 次測量，就發現了熱穩定的 P450，并且所需的樣品比标準 UCB 和随機方法少三到四倍。

研究者還在批量設定中測試了 BO 方法，其中多個序列并行測試，發現在較小批量中運行實驗略有好處。

該試劑設計蛋白質後，會将其發送到 SAMPLE 實驗室環境，以提供實驗反饋。

研究者開發了一種高度精簡、穩健和通用的流程，用于自動化基因組裝、無細胞蛋白表達和生化表征。

程式使用克隆組裝預合成的 DNA 片段 25 ，以產生完整的基因和基于 T7 的蛋白質表達所需的 5'/3' 非翻譯區網域。

然後通過聚合酶鏈反應擴增組裝的表達盒，并使用熒光染料 EvaGreen 驗證產物以檢測雙鏈 DNA。

然後将擴增的表達盒直接添加到基于 T7 的遊離蛋白表達試劑中，以產生靶蛋白。最後，使用比色 / 熒光測定法對表達的蛋白質進行表征，以評估其生化活性和性質。

在這項工作中，研究者專注于糖苷水解酶及其對高温的耐受性。

在鏈黴菌屬的四種不同的糖苷水解酶家族 1（GH1）酶上，研究者測試了自動化實驗流程的重現性。

該系統可靠地測量了酶的熱穩定性。

該過程需要 ∼1 小時的基因組裝，1 小時的 PCR，3 小時的蛋白質表達，3 小時的熱穩定性測量，以及 9 小時的從請求的蛋白質設計到物理蛋白質樣品再到相應數據點。

GH1 組合序列空間

基于雲端的糖苷水解酶自主設計

應用 SAMPLE 的目的，就是導航和優化 GH1 的熱穩定性圖景。

研究者在 Strateos 雲實驗室上實施了實驗管道，以增強其他研究人員的可擴展性和可訪問性。

為此，他們部署四個獨立的 SAMPLE 試劑，每個試劑都接種了相同的六個天然 GH1 序列。

智能體根據預期 UCB 标準設計序列，每輪選擇三個序列，總共運行 20 輪（圖 3a）。

這四種智能體的優化軌迹顯示出景觀的逐漸攀升，早期階段以探索行為為特征，後期輪次一致地對熱穩定設計進行采樣。

在兩種情況下，質量過濾器遺漏了錯誤數據，并錯誤地将熱穩定性值分配給非活動序列。

研究者故意不糾正這些錯誤的數據點，以觀察智能體在獲取更多景觀信息時，如何從錯誤中恢復。

有大量不确定的實驗，如圖 3a 底部的問号所示。

其中大多數是非活性酶的結果，試劑必須測試兩次才能将其指定為非活性酶。大約 9% 的實驗失敗，可能是由于液體處理錯誤。

每種試劑發現的 GH1 序列，都要比六個初始天然序列至少穩定 12°C。

智能體在搜索不到 2% 的完整組合景觀時，就能識别出這些序列。

研究者可視化了智能體的搜索軌迹，發現每個智能體在收斂到相同的全局适應度峰值之前廣泛探索了序列空間（圖 3b）。

所有四個智能體都到達了景觀的相似區網域，但每個智能體發現的頂部序列都是獨一無二的。

熱穩定序列往往由 P6F0、P1F2 或 P5F2 和 P1F3 基因片段組成，這表明相應的氨基酸片段可能含有穩定殘基和 / 或相互作用。

因此，可以相信智能體已經确定了 1,352 個成員組合序列空間的全局适應度峰值，因為所有四個智能體都收斂到同一個峰值，并且使用所有智能體收集的所有數據訓練的 GP 模型，都預測到了與智能體發現的序列相似的頂級序列。