大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

首个个性化对齐大模型问世!可精准识别用户内在动机和偏好,还有百万用户画像开源数据集

2025-04-07 简体 HK SG TW

今天小编分享的科学经验:首个个性化对齐大模型问世!可精准识别用户内在动机和偏好,还有百万用户画像开源数据集,欢迎阅读。

如何让大模型更懂「人」?

虽然现有大模型经过了人类价值观对齐训练,但其对齐效果往往会让少数群体的声音被系统性淹没。

那随之而来的问题是,当大模型服务全球用户,标准化对齐范式是否正在制造新的数字鸿沟?

来自人大和蚂蚁的研究团队洞察到传统对齐范式的结构性缺陷:

基于普世原则(如无害性、有用性)的单一价值观体系,本质上是对人类复杂心理图谱的暴力降维。这就像用同一副滤镜处理所有影像,虽能保证基础画质,却抹杀了万千色彩的独特性。

更严峻的是,现有反馈系统收集的「集体智慧」,往往演变成主流偏好的回声室,使得教育背景、文化认同等关键差异项在数据池中悄然消融。

面对这一挑战,研究团队提出大模型应该转向个性化对齐训练。

这首先需要构建一个全面而精准的人类偏好表征系统。受到认知科学的启发,研究团队构建了首个 90 维心理偏好空间,巧妙融合马斯洛需求层次理论、默里需求体系、前沿对齐研究维度与亿级社交平台兴趣图谱。

这个可解释的坐标体系如同数字罗盘,既能定位用户「偏好什么」(如知识获取倾向),更能揭示「为何偏好」(如自我实现需求)。

基于该框架,研究团队构建并开源了首个包含 130 万用户画像的 AlignX 数据集,以及基于大规模综合个性化训练的大语言模型 AlignXpert。

该模型采用两种互补的个性化对齐方法:

一是通过上下文对齐(In-Context Alignment,ICA)将用户画像直接整合到上下文視窗中进行隐式偏好学习;

二是通过偏好桥接对齐(Preference-Bridged Alignment,PBA)将用户画像映射为结构化偏好分布,在保持对不同用户群体稳健泛化能力的同时,提升了模型的可解释性和可控性。

在 4 个具有挑战性的基准测试中,AlignXpert 对用户偏好的预测准确率实现了平均 17.06% 的相对提升。

值得一提的是,研究团队同步发布了首篇聚焦个性化对齐的综述论文。

该综述系统性地探讨了大语言模型如何在保持普适伦理边界的同时,实现对个体偏好的精准适配。通过提出统一的技术框架,涵盖偏好记忆管理、个性化生成和基于反馈的对齐机制,为未来更具适应性的伦理对齐模型发展指明方向。这份综述与本文提出的 AlignX 形成优势互补:综述梳理了技术全景,而 AlignX 则是从理论到实践的突破性尝试。

该论文的第一作者是中国人民大学高瓴人工智能学院博士生李嘉楠,蚂蚁技术研究院副研究员关健为共同第一作者。

对齐幻象下的千人一面困局

在大模型对齐技术日益精进的表象之下,潜藏着一个被集体忽视的悖论:当开发者不断叠加「无害性」「诚实性」「帮助性」等普世原则时,模型的「价值熵减」现象却愈演愈烈。

这种矛盾集中体现在两大困境:

一是系统性排除效应,少数群体的文化观念、道德立场在默认对齐框架中遭遇静默擦除;

二是适配性塌缩,用户满意度因缺乏个性化响应而持续衰减。

这一危机直指对齐范式的根本缺陷:人类价值观的多元光谱与大模型开发者预设的单一道德坐标系之间,存在着无法弥合的认知鸿沟。

△对某个用户提示的生成空间进行可视化。

在大模型开发者预设的三个普世价值观维度下,现有大模型所对齐的社会偏好密集区網域是所有个性化偏好密集区網域的平均。

深入剖析现有方法,团队发现主流 " 一刀切 " 的对齐技术依赖两大脆弱假设:

一是将复杂的人类偏好压缩为几个单向度指标(如「帮助性(越高越好)」),二是将个体差异简化为同质化数据池中的统计噪声。这种粗放式建模犹如在数据荒漠中盲目绘制用户画像,既无法捕捉价值观冲突中的微妙平衡(如自由表达 vs 社会规范),更无力应对长尾群体的认知特异性。

尤为严峻的是,基于匿名聚合数据的对齐训练,实质上抹杀了用户画像与偏好维度间的因果纽带,导致模型始终在认知迷雾中摸索。

△AlignX 个性化对齐数据示意图。

这个示意图中,包含一个帖子及其两个候选回答,三类人格表征包含行为模式和描述性特征,可实现精准偏好推断并促进偏好学习(右下)。值得注意的是,基于普世价值观对齐的大语言模型(如 GPT-4)倾向于选择回答 2,与用户倾向于回答 1 的个性化偏好形成对立。

正如综述论文所指出的,人类偏好并非单一维度的线性优化问题,而是动态、多维且受社会文化深刻影响的复杂系统。

如下图所示,个性化对齐的核心在于构建一个能够动态平衡普适伦理与个体需求的框架。通过引入偏好记忆管理、个性化生成和基于反馈的对齐机制,模型可以在保持伦理边界的同时,精准适配用户偏好。这不仅是技术的突破,更是对 " 千人一面 " 困局的深刻反思。

△个性化对齐框架 AlignX:构建可扩展的个性化对齐数据集

面对个性化对齐中多维度偏好建模的复杂性,研究团队提出了一套系统化偏好表征框架,其核心突破在于融合「直接偏好方向」与「间接用户画像」的双重认知架构,将人类需求的底层逻辑转化为可计算的科学语言。

这一创新建立在心理学与社会认知科学的坚实基础上。通过引入结构化表征方法,该框架为大规模用户偏好学习构建了一个「认知作業系統」。

系统通过两个层次建模用户偏好:

(1)全面的偏好空间映射,将 90 个关键偏好维度(如 " 安全感 "、" 社交归属 "、" 自我实现 " 等)编码为可量化的方向标签(正向 / 负向 / 中性);

(2)多源异构用户画像表示,整合行为模式(包括用户的生成内容、比较式反馈)与描述性特征(即人口统计属性)。

基于该偏好表示框架,研究团队开创了从海量互動数据中可扩展地提炼个性化对齐数据的新范式。从 Reddit 论坛 16 亿级真实讨论和现有的多个对齐数据集出发,研究团队构建了包含 130 万个用户画像的 AlignX 数据集。AlignX 中每条数据被表征成一个五元组,包括用户画像、用户画像隐含的偏好向量、用户 Prompt、用户偏好的回复和用户不偏好的回复。AlignX 数据集的核心在于将个性化对齐任务形式化为一个条件策略学习问题,使模型能够基于用户画像生成与用户偏好相符的回复。

AlignXpert:解密用户行为中的隐式偏好

基于 AlignX 数据集,研究团队训练得到能够根据用户画像进行个性化生成的模型 AlignXpert。该模型可以通过两种方案实现个性化对齐——上下文对齐(ICA)与偏好桥接对齐(PBA),分别对用户画像隐含的用户偏好进行隐式和显式的建模:

ICA:上下文对齐

直接将用户画像与用户 Prompt 拼接为上下文視窗,训练模型捕捉隐式用户偏好,实现零样本泛化能力。该方案巧妙利用大模型的上下文学习特性,从用户画像中隐式地学习隐含的用户偏好。

PBA:偏好桥接对齐

引入隐变量显式建模用户偏好方,通过两阶段分解实现可解释的偏好传递:第一阶段将用户画像压缩为偏好方向向量,第二阶段将其转化为自然语言描述注入生成过程。

两大方法形成互补优势:

隐显协同

ICA 擅长捕捉动态互動模式,PBA 精于结构化偏好推理

效率革命

ICA 利用现成上下文机制,PBA 通过用户画像向量化压缩计算开销

△  对齐方法概述广泛提升模型对齐能力

实验结果令人振奋!研究团队在涵盖普世价值观对齐(UF-P-4)、真实用户个性化偏好对齐(PRISM、P-Soups)及综合对齐(AlignX-test)的四大具有挑战性的基准上,系统验证了 AlignXpert 的卓越性能。

1. 跨维度对齐:通用与个性化价值的双重征服

AlignXpert 在通用价值观与个性化偏好场景中均展现卓越表现。虽然基准模型在普世价值观(UF-P-4)上表现良好,但它们在个性化偏好(P-Soups、AlignX-test)上表现欠佳。AlignXpert 在两种场景下均保持卓越性能,并在分布外基准测试中展现出强大的泛化能力,在 PRISM/ P-Soups 上分别以 9.83%/32.25% 的优势超越基线。

△  不同模型在含各类用户画像的偏好对齐任务中的对齐准确率(%)

△GPT-4 胜率(M1:Llama-3.1-8B-Instruct;M2:AlignXpert-ICA;M3:AlignXpert-PBA)

2. 泛化未来:新偏好维度快速适配

研究团队探究 AlignXpert 在 AlignX 上的偏好对齐训练是否为适应新偏好维度提供了更优的初始化参数。基于两个新维度—— " 幽默 "(诙谐 vs 严肃)与 " 实用主义 "(实践导向 vs 理论导向),研究团队构建了包含 6,355 个训练样本和 1,000 个测试样本的数据集。

对比三种适应方法: ( 1 ) 在 ICA 框架下微调 Llama-3.1-8B-Instruct, ( 2 ) 在 ICA 框架下微调 AlignXpert-ICA, ( 3 ) 在 PBA 框架下微调 AlignXpert-PBA。两种 AlignXpert 变体均显著超越 Llama 基线(p 值 <0.05),表明模型习得的是可泛化的偏好对齐机制,而非对训练维度的简单拟合。

△在新偏好维度下的对齐准确率

3. 互動数据稀缺,仍能维持表现

在真实应用场景中,用户往往仅具备有限的互動历史,这使得个性化偏好对齐模型在不同规模历史数据下的稳定表现至关重要。研究团队评估了 AlignXpert 模型对用户互动历史数据量的鲁棒性。通过使用 2~16 组用户生成内容和成对比较数据作为用户画像进行测试,揭示了 AlignXpert 的两大核心优势:

数据稀缺场景下的稳健性:即使用户画像中仅包含 2 个样本数据,模型仍能保持可靠性能;

增益效应:随着历史数据增加,准确率持续提升。

△不同互動历史数量下的对齐准确率

4. 控制自如的偏好

偏好对齐系统的核心能力在于适应多元甚至对立的用户偏好,而非固化单一倾向。为验证 AlignXpert 的该特性,研究团队在 P-Soups 和 AlignX-test 数据集开展可控性实验:在推理阶段对用户画像中的成对偏好样本及目标偏好回复对的偏好方向进行反转(如将 "y_w>y_l" 改为 "y_w<y_l"),并通过两项指标评估可控性:

对齐准确率(Acc):衡量模型在偏好反转条件下是否能准确预测被偏好的回复;

翻转成功率(Flip):统计模型在偏好反转之后预测也成功反转的比例。

AlignXpert 在两项指标上均展现卓越可控性。基线模型则表现出显著低的翻转成功率(3-15%),证实其过拟合到固定的偏好方向,而 AlignXpert 实现了动态适应性优化。

△偏好反转场景下的模型表现结语

本研究首次系统地探索了大规模个性化偏好对齐范式,为模型适配多样化人类需求开辟新路径。

核心贡献包括:

( 1 ) 突破性提出 " 间接用户画像 - 直接偏好方向 " 双向映射框架,实现复杂偏好建模的系统性突破;

( 2 ) 开源 AlignX 数据集,提供 130 万条精细化用户画像 - 偏好关联数据,刷新对齐数据规模天花板;

( 3 ) AlignXpert 模型通过上下文学习或偏好桥接对齐策略,在零样本适应、低互動优化等场景实现卓越性能提升。

实验证明该方案在偏好可控性等方面达到新高度,为教育、心理咨询等个性化服务领網域奠定基础。研究团队期待该框架持续进化,在人类价值观建模与隐私保护平衡等方向实现更深层突破。

论文地址:https://arxiv.org/pdf/2503.15463

Github:https://github.com/JinaLeejnl/AlignX

Dataset:https://huggingface.co/datasets/JinaLeejnl/AlignX

Survey 链接:https://arxiv.org/abs/2503.17003

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点亮星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們