性能無損，模型隐私保護效果提升50%!螞蟻數科創新跨網域微調框架

今天小編分享的科學經驗：性能無損，模型隐私保護效果提升50%!螞蟻數科創新跨網域微調框架，歡迎閱讀。

大模型的快速及持續發展，離不開對模型所有權及數據隐私的保護。

AAAI 2025 期間，螞蟻數科、浙江大學、利物浦大學和華東師範大學聯合團隊提出了一種創新的跨網域微調框架ScaleOT，可以實現在模型性能無損的前提下，将模型隐私保護效果提升 50%。

相比于知識蒸餾技術，還降低了 90% 的算力消耗，為百億級參數模型的跨網域微調提供了一種高效和輕量化的解決方案。

這篇論文以其創新性入選了本屆 AAAI 的 Oral 論文。據了解，本屆大會共收到近 13000 篇論文，被選中做口頭報告的比例不足 5%。

目前，該算法已經融入螞蟻數科旗下的摩斯大模型隐私保護產品中，并已成為國内首批通過信通院大模型可信執行環境產品專項測試的產品之一。

跨網域微調框架 ScaleOT

為同時保護模型產權與數據隐私，目前業内采用的主流方案是跨網域微調。

主流的跨網域微調方法存在顯著局限性：

其一，其 " 均勻抽積木 " 式的處理方式容易造成模型關鍵層的缺失，從而導致模型性能顯著下降；

其二，若采用蒸餾技術來彌補性能損失，計算成本幾乎與重新訓練一個中型模型相當。此外，現有方法在隐私保護方面缺乏靈活性，難以根據不同場景需求動态調整隐私保護強度。

ScaleOT 提出了三大創新思路，有效地實現了在模型性能與隐私安全之間的平衡。

首先是對大模型智能層的重要性進行評估，用強化學習給大模型做掃描，自動識别哪些層對當前任務最關鍵，動态保留模型 " 核心層 "，有效降低模型性能損耗。

其次，對保留的模型原始層做 " 打碼 "，讓攻擊者無法通過中間層復原原始模型，可以在性能幾乎無損的情況下，顯著提升隐私保護強度。

最後，該框架還可以根據不同場景需求進行靈活組裝，實現隐私強度可調節。

螞蟻數科技術團隊這一創新的大模型隐私微調算法，為大模型隐私保護提供了新穎的思路與解決方案。

具體而言，如圖 2（b）所示，跨網域微調不是使用完整的模型進行訓練，而是允許數據所有者使用模型所有者提供的有損壓縮仿真器進行微調，但這種範式有個缺點：會讓數據所有者得到的仿真器的性能較差。

然後，訓練得到的适配器會被返回給模型所有者，并被插入到完整模型中，以創建一個高性能的微調模型。

特别需要指出，數據所有者和模型所有者端之間的模型性能差異是模型隐私的關鍵因素，這會促使下遊用戶使用微調的完整模型。

△圖 2

因此，跨網域微調的主要難題在于高效壓縮 LLM，通過在維持性能差異的同時提升适應版完整模型，從而實現對模型隐私的保護。

遵循跨網域微調策略，原生 OT 方法采用的策略是 Uniform LayerDrop（均勻層丢棄），從完整模型中均勻地删除一部分層，如下圖 1（a）所示。

△圖 1：分層壓縮策略比較。（a）Uniform LayerDrop；（b）帶估計的重要性分數的 Dynamic LayerDrop；（c）帶協調器的 Dynamic LayerReplace；（d）使用不同壓縮比的結果。新方法在所有者端實現了更好的性能，同時保持了性能差異。

然而，盡管大型模型中的許多參數是冗餘的，但每層的重要性差異很大，這種均勻删除可能會導致适應後的完整模型的性能下降。

此外，直接的層删除會導致被删除層的輸入和輸出隐藏空間之間錯位，這也會導致所有者端的性能下降。雖然知識蒸餾可以緩解這個問題，但訓練一個所需的仿真器的成本至少是 LLM 大小的一半，這意味着巨大的訓練成本為提供具有不同壓縮比的仿真器帶來了重大缺陷。

ScaleOT 實現：框架設計和創建過程

如圖 2 ( c ) 所示，該框架由兩個階段組成：重要性估計和仿真器生成。

對于第一階段，團隊提出了一種基于重要性感知型層替換的算法 Dynamic LayerReplace，該算法需要使用一種強化學習方法來确定 LLM 中每一層的重要性。同時，對于不太重要的層，動态選擇并訓練一組可訓練的協調器作為替代，這些協調器是輕量級網絡，可用于更好地實現剩餘層的對齊。

在第二階段，根據學習到的重要性得分，可将原始模型層及其對應的協調器以各種方式組合到一起，從而得到仿真器（emulator），同時還能在模型所有者端維持令人滿意的性能，如圖 1 ( d ) 所示。

根據實踐經驗發現，如果使用秩分解來進一步地壓縮剩餘的模型層，還可以更好地實現隐私保護，同時模型的性能下降也不會太多。基于這一觀察，該團隊提出了選擇性秩壓縮（SRC）方法。

團隊進行了大量實驗，涉及多個模型和數據集，最終證明新提出的方法确實優于之前的方法，同時還能調整壓縮後仿真器模型的大小以及 SRC 中的秩約簡率。因此，這些新方法的有效性和可行性都得到了驗證。

總結起來，這項研究做出了三大貢獻：

提出了一種靈活的方法，可為跨網域微調得到多種大小的壓縮版模型：提出了一種重要性感知型有損壓縮算法 Dynamic LayerReplace，該算法面向使用 LLM 的跨網域微調，可通過強化學習和協調器來擴展仿真器。這些組件可以實現靈活的多種規模的壓縮模型生成。

僅需一點點微調性能下降，就能通過進一步的壓縮獲得更好的隐私：新提出的選擇性秩壓縮策略僅需少量性能損失就能進一步提升模型隐私。

全面的實驗表明，新提出的 ScaleOT 優于當前最佳方法。

△圖 offsite tuning 訓練過程中產生的不同模型

在研究中，考慮到隐私問題阻止了數據和 LLM 的所有者之間共享和共存數據及模型。目标是在不訪問模型所有者的模型權重的情況下，使用數據所有者的數據來調整模型。從預訓練的模型①開始，以及下遊數據集 D。

該團隊在下遊數據上微調這個模型，以實現

得到模型⑤，其中

該團隊的目标是通過找到一個比模型①更小、更弱的替代模型模型②（稱為仿真器），來促進隐私遷移學習。

這種方法可确保與下遊用戶共享模型②不會威脅到 LLM 的所有權。

然後，數據所有者使用他們的數據集對替代模型進行微調，得到模型③。

該團隊希望，通過将訓練好的權重重新整合到原始模型中得到模型④，幾乎可以復制模型⑤，從而消除了直接模型①的需求。

一個有效的跨網域微調應該滿足以下條件：

1）模型① < 模型④，以使微調過程成為必要。

2）模型③ < 模型④，以阻止下遊用戶使用微調後的仿真器。

3）模型④ ≈ 模型⑤，以鼓勵下遊用戶使用模型④。

基于 Transformer 架構設計跨網域微調，更強的實用性

這篇論文關注的重點是基于 Transformer 架構來設計跨網域微調。

這裡需要将每個 Transformer 層視為一個基本單元，而 LLM 可以表示成 M = {m_1, m_2, . . . , m_n}，其中 n 是總層數。

該團隊的新方法需要将 M 抽成兩個組件：** 一個緊湊型的可訓練适應器 A 和模型的其餘部分 E。層索引的集合可以定義成滿足此條件。

為了保護模型的隐私，需要對保持不變的組件 E 執行一次有損壓縮，這會得到一個仿真器 E*，從而可通過更新 A 來促進模型微調。

待完成在數據所有者端的訓練後，更新後的适應器 A ′ 會被返回到模型所有者端并替換 M 中的原來的 A。于是可将最終更新後的 LLM 表示為 M ′ = [ A ′ , E ] 。值得注意的是，有損壓縮必定會限制下遊用戶的 [ A ′ , E ∗ ] 模型性能，但卻實現了對模型所有權的保護。

這篇論文解決了該問題的兩個關鍵：獲得 A 和 E 的适當劃分以及實現從 E 到 E ∗ 的更好壓縮，從而實現有效的微調并保持隐私。

對于前者，該團隊在模型層上引入了重要性分數（importance score），可用于引導 A 和 E 的選擇。具體而言，在用輕量級網絡動态替換原始層的過程中，可通過強化學習來估計重要性分數。

這些輕量級網絡（稱為協調器 /harmonizer）可以進一步用作 E 中各層的替代，從而提高完整版已适應模型的性能。

此外，對于 E 中被協調器替換的其餘層，該團隊還提出了選擇性秩壓縮（selective rank compression）方法，該方法在保持完整版已适應模型性能的同時還能保證更好的隐私。

重要性感知型動态層替換

△圖動态層替換算法展示。

該團隊提出了一種全新的基于層替換的壓縮算法：Dynamic LayerReplace（動态層替換）。

其目标是估計 LLM 中每層的重要性，并用輕量級網絡（稱為協調器）替換不太重要的層，以保持層之間的語義一致性。為此，他們采用了一種雙過程方法，包含了協調器更新循環和重要性更新循環。

在協調器更新循環中，根據重要性評分，選擇部分完整層替換為和諧器，然後使用深度學習（DL）來通過梯度下降訓練協調器。在重要性更新循環中，每層的重要性評分通過借鑑強化學習中的 K 臂賭博機問題進行更新。

在訓練結束時，可以獲得一組用于層替換的協調器，以及估計的逐層重要性評分。它們将用于随後的可擴展仿真器生成階段。

選擇性秩壓縮

該團隊通過大量研究發現，大語言模型的參數數量遠超過實際需要，即使去掉一部分參數也不會顯著影響模型的整體性能。

基于這一發現，該團隊提出了一種通過低秩近似壓縮仿真器權重的方法來增強模型的隐私保護功能。當權重的高階分量被降低時，仿真器的表達能力會相應減弱，從而產生更大的性能差距。同時，剩餘的低階權重分量仍然可以為調優過程中的适配器更新提供近似梯度方向。

Transformer 模型的每一層主要由兩個部分組成：多頭自注意力層 ( MHSA ) 和前饋神經網絡層 ( FFN ) 。MHSA 負責處理詞元之間的互動，而 FFN 則進一步處理單個詞元内的信息轉換。為了提升表達能力，FFN 的隐藏維度通常設定得很高，是輸入輸出維度的 2.5 到 4 倍。

考慮到 FFN 本身就具有高秩的特性，該團隊提出了一種策略——只對 MHSA 層的權重進行秩壓縮，以增強模型的隐私保護。

如圖 3 所示，實驗表明，如果對所有層 ( MHSA+FFN ) 或僅對 FFN 進行秩壓縮，都會導致模型和數據性能的指數級下降。相比之下，僅對 MHSA 層進行秩壓縮時。雖然會使仿真器性能快速下降，但對插件性能的影響較小，尤其是在壓縮比大于 0.6 時。因此，研究團隊選擇了對仿真器中的 MHSA 層進行秩壓縮的策略。

創建保護隐私且實用的仿真器

既要滿足保護隐私，還具備擴展性的仿真器的設計基于三個核心參數：調整層數量 ( Na ) 、協調器替換比例 ( α ) 和結構秩壓縮比例 ( β ) 。這些參數共同決定了如何使用大語言模型 ( M ) 、重要性分數 ( S ) 和協調器 ( H ) 來創建仿真器 ( E ) ，從而在保護隐私和保持模型性能之間取得平衡。

如圖 3 所示，團隊在虛線框内确定了一個适合生成有效模拟器用于異地調優的廣泛區網域。通過調整這兩個參數，可以創建具有低壓縮率的仿真器器，以實現卓越的 plug-in 性能（甚至與完全微調相比可達到無損），或者采用較高的壓縮率以增強模型隐私性。

ScaleOT 效果評估：更好的性能，更優的模型隐私

該團隊首先在中等大小的模型（包括 GPT2-XL 和 OPT-1.3B，大約 10 億參數量）上評估了他們提出的 ScaleOT，如表 1 所示。

所有方法都滿足了跨網域微調的條件，即插件的性能超過了完整模型的零樣本和仿真器微調的性能。此外，沒有 SRC 的 ScaleOT 幾乎實現了與完整微調相當的無損性能。這突出了動态層替換與基線 OT 中使用的 Uniform LayerDrop 相比的有效性。

值得注意的是，由于選擇了重要的層進行更新，插件的性能可以超過直接在 LLM 上進行微調的性能，這得益于稀疏訓練帶來的更好收斂性。

最後，SRC 的加入顯著降低了仿真器零樣本和微調的性能，平均降低了 9.2% 和 2.2%，而插件的性能幾乎沒有下降。總體而言，ScaleOT 不僅實現了更好的性能，還确保了良好的模型隐私。

随後，該團隊驗證了他們提出的 ScaleOT 在更大的 LLM 上的有效性，包括擁有大約 70 億參數的 OPT-6.7B 和 LLaMA-7B。

如表 2 所示，由于在有限的硬體上無法執行知識蒸餾，OT 未能達到令人滿意的性能。CRaSh 通過 LayerSharing 提高了性能，但由于壓縮後無法完全恢復性能，導致結果并不理想。

相比之下，ScaleOT 使得大型模型的壓縮變得可行，僅需要在壓縮階段訓練大約 1-2% 的參數。值得注意的是，該團隊提出的方法在 WebQs 任務上實現了強大的插件性能，其中零樣本準确率為零，突顯了其在新的下遊應用中的潛力。

此外，ScaleOT 取得了值得稱贊的結果，表明其有效性并不局限于特定的模型大小。這使得 ScaleOT 成為增強不同規模模型跨網域微調結果的有價值策略。

重要性得分

該團隊對 OPT-6.7B 和 LLaMA-7B 的估計重要性得分進行了可視化，如圖 6 所示。可以明顯看出，在不同網絡中，重要性分布存在相當大的差異。

然而，一個一致的模式出現了：第一層具有顯著的重要性。這一發現與 OT 的觀察結果相呼應，盡管缺乏明确的解釋。

與參數高效微調的正交性

根據設計，ScaleOT 能與參數高效微調（PEFT）方法無縫集成，從而形成一種綜合方法，顯著減少可訓練參數并提升效率。這可以通過在調整層中使用 PEFT 方法來實現，包括 Adapter-tuning 和 LoRA 等策略。

如表 3 所示，該團隊觀察到 Adapter-tuning 和 LoRA 在保持插件性能的同時大幅減少了可訓練參數。

螞蟻數科技術團隊這一全新的大模型隐私微調算法，有效攻克在仿真器生成時計算復雜度高、模型隐私安全性不足等難題，成功為大模型隐私保護提供了新穎的思路與解決方案。

該創新源自螞蟻數科在 AI 隐私安全領網域的持續投入與實踐，這一算法也已融入摩斯大模型隐私保護產品，該產品是信通院首批通過大模型可信執行環境產品專項測試的廠商。

論文地址：

https://arxiv.org/pdf/2412.09812

— 完 —

學術投稿請于工作日發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

一鍵關注點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！