大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

首個個性化對齊大模型問世!可精準識别用戶内在動機和偏好,還有百萬用戶畫像開源數據集

2025-04-07 简体 HK SG TW

今天小編分享的科學經驗:首個個性化對齊大模型問世!可精準識别用戶内在動機和偏好,還有百萬用戶畫像開源數據集,歡迎閱讀。

如何讓大模型更懂「人」?

雖然現有大模型經過了人類價值觀對齊訓練,但其對齊效果往往會讓少數群體的聲音被系統性淹沒。

那随之而來的問題是,當大模型服務全球用戶,标準化對齊範式是否正在制造新的數字鴻溝?

來自人大和螞蟻的研究團隊洞察到傳統對齊範式的結構性缺陷:

基于普世原則(如無害性、有用性)的單一價值觀體系,本質上是對人類復雜心理圖譜的暴力降維。這就像用同一副濾鏡處理所有影像,雖能保證基礎畫質,卻抹殺了萬千色彩的獨特性。

更嚴峻的是,現有反饋系統收集的「集體智慧」,往往演變成主流偏好的回聲室,使得教育背景、文化認同等關鍵差異項在數據池中悄然消融。

面對這一挑戰,研究團隊提出大模型應該轉向個性化對齊訓練。

這首先需要構建一個全面而精準的人類偏好表征系統。受到認知科學的啟發,研究團隊構建了首個 90 維心理偏好空間,巧妙融合馬斯洛需求層次理論、默裡需求體系、前沿對齊研究維度與億級社交平台興趣圖譜。

這個可解釋的坐标體系如同數字羅盤,既能定位用戶「偏好什麼」(如知識獲取傾向),更能揭示「為何偏好」(如自我實現需求)。

基于該框架,研究團隊構建并開源了首個包含 130 萬用戶畫像的 AlignX 數據集,以及基于大規模綜合個性化訓練的大語言模型 AlignXpert。

該模型采用兩種互補的個性化對齊方法:

一是通過上下文對齊(In-Context Alignment,ICA)将用戶畫像直接整合到上下文視窗中進行隐式偏好學習;

二是通過偏好橋接對齊(Preference-Bridged Alignment,PBA)将用戶畫像映射為結構化偏好分布,在保持對不同用戶群體穩健泛化能力的同時,提升了模型的可解釋性和可控性。

在 4 個具有挑戰性的基準測試中,AlignXpert 對用戶偏好的預測準确率實現了平均 17.06% 的相對提升。

值得一提的是,研究團隊同步發布了首篇聚焦個性化對齊的綜述論文。

該綜述系統性地探讨了大語言模型如何在保持普适倫理邊界的同時,實現對個體偏好的精準适配。通過提出統一的技術框架,涵蓋偏好記憶管理、個性化生成和基于反饋的對齊機制,為未來更具适應性的倫理對齊模型發展指明方向。這份綜述與本文提出的 AlignX 形成優勢互補:綜述梳理了技術全景,而 AlignX 則是從理論到實踐的突破性嘗試。

該論文的第一作者是中國人民大學高瓴人工智能學院博士生李嘉楠,螞蟻技術研究院副研究員關健為共同第一作者。

對齊幻象下的千人一面困局

在大模型對齊技術日益精進的表象之下,潛藏着一個被集體忽視的悖論:當開發者不斷疊加「無害性」「誠實性」「幫助性」等普世原則時,模型的「價值熵減」現象卻愈演愈烈。

這種矛盾集中體現在兩大困境:

一是系統性排除效應,少數群體的文化觀念、道德立場在默認對齊框架中遭遇靜默擦除;

二是适配性塌縮,用戶滿意度因缺乏個性化響應而持續衰減。

這一危機直指對齊範式的根本缺陷:人類價值觀的多元光譜與大模型開發者預設的單一道德坐标系之間,存在着無法彌合的認知鴻溝。

△對某個用戶提示的生成空間進行可視化。

在大模型開發者預設的三個普世價值觀維度下,現有大模型所對齊的社會偏好密集區網域是所有個性化偏好密集區網域的平均。

深入剖析現有方法,團隊發現主流 " 一刀切 " 的對齊技術依賴兩大脆弱假設:

一是将復雜的人類偏好壓縮為幾個單向度指标(如「幫助性(越高越好)」),二是将個體差異簡化為同質化數據池中的統計噪聲。這種粗放式建模猶如在數據荒漠中盲目繪制用戶畫像,既無法捕捉價值觀衝突中的微妙平衡(如自由表達 vs 社會規範),更無力應對長尾群體的認知特異性。

尤為嚴峻的是,基于匿名聚合數據的對齊訓練,實質上抹殺了用戶畫像與偏好維度間的因果紐帶,導致模型始終在認知迷霧中摸索。

△AlignX 個性化對齊數據示意圖。

這個示意圖中,包含一個帖子及其兩個候選回答,三類人格表征包含行為模式和描述性特征,可實現精準偏好推斷并促進偏好學習(右下)。值得注意的是,基于普世價值觀對齊的大語言模型(如 GPT-4)傾向于選擇回答 2,與用戶傾向于回答 1 的個性化偏好形成對立。

正如綜述論文所指出的,人類偏好并非單一維度的線性優化問題,而是動态、多維且受社會文化深刻影響的復雜系統。

如下圖所示,個性化對齊的核心在于構建一個能夠動态平衡普适倫理與個體需求的框架。通過引入偏好記憶管理、個性化生成和基于反饋的對齊機制,模型可以在保持倫理邊界的同時,精準适配用戶偏好。這不僅是技術的突破,更是對 " 千人一面 " 困局的深刻反思。

△個性化對齊框架 AlignX:構建可擴展的個性化對齊數據集

面對個性化對齊中多維度偏好建模的復雜性,研究團隊提出了一套系統化偏好表征框架,其核心突破在于融合「直接偏好方向」與「間接用戶畫像」的雙重認知架構,将人類需求的底層邏輯轉化為可計算的科學語言。

這一創新建立在心理學與社會認知科學的堅實基礎上。通過引入結構化表征方法,該框架為大規模用戶偏好學習構建了一個「認知作業系統」。

系統通過兩個層次建模用戶偏好:

(1)全面的偏好空間映射,将 90 個關鍵偏好維度(如 " 安全感 "、" 社交歸屬 "、" 自我實現 " 等)編碼為可量化的方向标籤(正向 / 負向 / 中性);

(2)多源異構用戶畫像表示,整合行為模式(包括用戶的生成内容、比較式反饋)與描述性特征(即人口統計屬性)。

基于該偏好表示框架,研究團隊開創了從海量互動數據中可擴展地提煉個性化對齊數據的新範式。從 Reddit 論壇 16 億級真實讨論和現有的多個對齊數據集出發,研究團隊構建了包含 130 萬個用戶畫像的 AlignX 數據集。AlignX 中每條數據被表征成一個五元組,包括用戶畫像、用戶畫像隐含的偏好向量、用戶 Prompt、用戶偏好的回復和用戶不偏好的回復。AlignX 數據集的核心在于将個性化對齊任務形式化為一個條件策略學習問題,使模型能夠基于用戶畫像生成與用戶偏好相符的回復。

AlignXpert:解密用戶行為中的隐式偏好

基于 AlignX 數據集,研究團隊訓練得到能夠根據用戶畫像進行個性化生成的模型 AlignXpert。該模型可以通過兩種方案實現個性化對齊——上下文對齊(ICA)與偏好橋接對齊(PBA),分别對用戶畫像隐含的用戶偏好進行隐式和顯式的建模:

ICA:上下文對齊

直接将用戶畫像與用戶 Prompt 拼接為上下文視窗,訓練模型捕捉隐式用戶偏好,實現零樣本泛化能力。該方案巧妙利用大模型的上下文學習特性,從用戶畫像中隐式地學習隐含的用戶偏好。

PBA:偏好橋接對齊

引入隐變量顯式建模用戶偏好方,通過兩階段分解實現可解釋的偏好傳遞:第一階段将用戶畫像壓縮為偏好方向向量,第二階段将其轉化為自然語言描述注入生成過程。

兩大方法形成互補優勢:

隐顯協同

ICA 擅長捕捉動态互動模式,PBA 精于結構化偏好推理

效率革命

ICA 利用現成上下文機制,PBA 通過用戶畫像向量化壓縮計算開銷

△  對齊方法概述廣泛提升模型對齊能力

實驗結果令人振奮!研究團隊在涵蓋普世價值觀對齊(UF-P-4)、真實用戶個性化偏好對齊(PRISM、P-Soups)及綜合對齊(AlignX-test)的四大具有挑戰性的基準上,系統驗證了 AlignXpert 的卓越性能。

1. 跨維度對齊:通用與個性化價值的雙重征服

AlignXpert 在通用價值觀與個性化偏好場景中均展現卓越表現。雖然基準模型在普世價值觀(UF-P-4)上表現良好,但它們在個性化偏好(P-Soups、AlignX-test)上表現欠佳。AlignXpert 在兩種場景下均保持卓越性能,并在分布外基準測試中展現出強大的泛化能力,在 PRISM/ P-Soups 上分别以 9.83%/32.25% 的優勢超越基線。

△  不同模型在含各類用戶畫像的偏好對齊任務中的對齊準确率(%)

△GPT-4 勝率(M1:Llama-3.1-8B-Instruct;M2:AlignXpert-ICA;M3:AlignXpert-PBA)

2. 泛化未來:新偏好維度快速适配

研究團隊探究 AlignXpert 在 AlignX 上的偏好對齊訓練是否為适應新偏好維度提供了更優的初始化參數。基于兩個新維度—— " 幽默 "(诙諧 vs 嚴肅)與 " 實用主義 "(實踐導向 vs 理論導向),研究團隊構建了包含 6,355 個訓練樣本和 1,000 個測試樣本的數據集。

對比三種适應方法: ( 1 ) 在 ICA 框架下微調 Llama-3.1-8B-Instruct, ( 2 ) 在 ICA 框架下微調 AlignXpert-ICA, ( 3 ) 在 PBA 框架下微調 AlignXpert-PBA。兩種 AlignXpert 變體均顯著超越 Llama 基線(p 值 <0.05),表明模型習得的是可泛化的偏好對齊機制,而非對訓練維度的簡單拟合。

△在新偏好維度下的對齊準确率

3. 互動數據稀缺,仍能維持表現

在真實應用場景中,用戶往往僅具備有限的互動歷史,這使得個性化偏好對齊模型在不同規模歷史數據下的穩定表現至關重要。研究團隊評估了 AlignXpert 模型對用戶互動歷史數據量的魯棒性。通過使用 2~16 組用戶生成内容和成對比較數據作為用戶畫像進行測試,揭示了 AlignXpert 的兩大核心優勢:

數據稀缺場景下的穩健性:即使用戶畫像中僅包含 2 個樣本數據,模型仍能保持可靠性能;

增益效應:随着歷史數據增加,準确率持續提升。

△不同互動歷史數量下的對齊準确率

4. 控制自如的偏好

偏好對齊系統的核心能力在于适應多元甚至對立的用戶偏好,而非固化單一傾向。為驗證 AlignXpert 的該特性,研究團隊在 P-Soups 和 AlignX-test 數據集開展可控性實驗:在推理階段對用戶畫像中的成對偏好樣本及目标偏好回復對的偏好方向進行反轉(如将 "y_w>y_l" 改為 "y_w<y_l"),并通過兩項指标評估可控性:

對齊準确率(Acc):衡量模型在偏好反轉條件下是否能準确預測被偏好的回復;

翻轉成功率(Flip):統計模型在偏好反轉之後預測也成功反轉的比例。

AlignXpert 在兩項指标上均展現卓越可控性。基線模型則表現出顯著低的翻轉成功率(3-15%),證實其過拟合到固定的偏好方向,而 AlignXpert 實現了動态适應性優化。

△偏好反轉場景下的模型表現結語

本研究首次系統地探索了大規模個性化偏好對齊範式,為模型适配多樣化人類需求開辟新路徑。

核心貢獻包括:

( 1 ) 突破性提出 " 間接用戶畫像 - 直接偏好方向 " 雙向映射框架,實現復雜偏好建模的系統性突破;

( 2 ) 開源 AlignX 數據集,提供 130 萬條精細化用戶畫像 - 偏好關聯數據,刷新對齊數據規模天花板;

( 3 ) AlignXpert 模型通過上下文學習或偏好橋接對齊策略,在零樣本适應、低互動優化等場景實現卓越性能提升。

實驗證明該方案在偏好可控性等方面達到新高度,為教育、心理咨詢等個性化服務領網域奠定基礎。研究團隊期待該框架持續進化,在人類價值觀建模與隐私保護平衡等方向實現更深層突破。

論文地址:https://arxiv.org/pdf/2503.15463

Github:https://github.com/JinaLeejnl/AlignX

Dataset:https://huggingface.co/datasets/JinaLeejnl/AlignX

Survey 鏈接:https://arxiv.org/abs/2503.17003

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點亮星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們