50條數據解鎖空間智能，RL視覺語言模型3D空間推理框架MetaSpatial

今天小編分享的科學經驗：50條數據解鎖空間智能，RL視覺語言模型3D空間推理框架MetaSpatial，歡迎閲讀。

在三維空間理解任務中，讓視覺語言模型（VLM）生成結構合理、物理一致的場景布局仍是一項挑戰。以 " 請将這些家具合理擺放在房間中 " 為例，現有模型盡管能夠識别影像中的物體，甚至給出語義連貫的布局描述，但通常缺乏對三維空間結構的真實建模，難以滿足基本的物理約束與功能合理性。

為了解決這一問題，已有研究嘗試采用多智能體互動（multi-agent interaction）方法，通過多個語言模型或代理之間的迭代協商與驗證優化布局結果。然而，這類方法不僅計算成本高，而且在迭代過程中容易陷入死鎖，導致無法收斂至有效解。

另一類方法則通過構建大規模真實房間布局的描述語料，結合監督微調（Supervised Fine-Tuning, SFT）對模型進行訓練。這種方式可以在一定程度上提升模型基礎能力，但受到空間任務本身的限制：空間布局任務不存在唯一的标準答案。對于同一個輸入，合理的三維布局可以有多種形式，因此以單一 ground truth 為監督信号的 SFT 方法無法全面覆蓋可能的合理解空間，限制了模型的泛化能力與生成多樣性。

針對這一挑戰，西北大學計算機系與基礎模型與生成式 AI 中心的研究人員潘震宇 ( Zhenyu Pan ) 以及其導師劉晗 ( Han Liu ) 提出了核心問題：是否可以通過規則驅動的強化學習策略，為視覺語言模型注入空間推理能力？

三維布局任務具備強化學習适用的若幹關鍵特性：

不存在标準解，目标是生成符合約束的多樣性解；

缺乏精确标注，導致監督信号稀缺；

存在可程式化檢測的目标函數，如物體重疊、越界、功能邏輯合理性等。

強化學習（Reinforcement Learning）通過獎勵函數（reward function）而非依賴人工标注，引導模型在與環境互動中不斷優化策略。這使其天然适用于空間布局這類缺乏唯一标準答案、解空間復雜多樣的任務。近年來，結合規則獎勵機制的強化微調範式（Reinforcement Fine-Tuning, RFT）已在結構化任務中取得顯著成果，如文本生成、數學推理、代碼理解等，典型代表包括 DeepSeek-R1 和 OpenAI o1。

然而，在三維空間推理這一融合視覺、語言與結構理解的多模态任務中，這一策略仍未被充分探索。

為此，他們提出了 MetaSpatial 框架。該方法首次将基于規則獎勵的 RFT 策略成功遷移至視覺語言模型（VLMs）的空間布局場景中，在僅使用約 50 條無 ground truth 數據的條件下，即可顯著提升模型的空間推理能力與布局生成質量。

具體而言，MetaSpatial 構建了一套可程式化評估的獎勵函數，衡量布局結構是否合理、是否滿足物理約束，以及是否符合用户偏好。同時引入多輪布局 refinement 機制，引導模型在訓練過程中逐步優化空間決策。借助這一策略，模型無需依賴大規模标注數據，即可學習到具備泛化能力與結構适應性的空間推理策略。

實驗結果顯示，MetaSpatial 在多個空間生成指标上顯著優于傳統 SFT 方法，充分驗證了基于規則獎勵的強化學習在三維空間智能建模中的有效性與通用性。

MetaSpatial：引入 R1 突破 3D 空間推理壁壘

MetaSpatial 将訓練 3D 空間推理過程建模為一個多輪決策過程，其基本形式是：給定一組多模态輸入，模型通過一系列推理步驟生成結構化布局輸出，并基于可程式化評估的獎勵信号進行策略優化。

輸入與輸出形式

在每一輪互動中，MetaSpatial 的輸入包括：

場景影像或房間結構圖；

房間的幾何尺寸信息（長、寬、高）；

用户提供的偏好描述（如功能用途、風格要求等）；

需要布局的目标物體列表（包含物體類型、狀态等）。

模型輸出為兩個部分：

語言化的推理過程：記錄模型在布局時的決策理由；

結構化布局 JSON：每個物體的三維坐标位置（x, y, z）和名稱等，作為布局結果。

<think>The goal is to arrange the objects in a dinning room setting that includes a ,..., and respect the spatial constraints and user preferences. Here's how we can approach this:

1. **Kitchen Island**: Place it centrally ...2. **Hanging Pot Rack**: Hang it above ......Let's compute the positions:- **Kitchen Island**: ( 3, 2.5, 0.45 ) - **Hanging Pot Rack**: ( 3, 2.5, 0.65 ) ...Now, let's generate the JSON output.</think>

<answer> [ {"new_object_id": "kitchen_island_1", "x": 3.0, "y": 2.5, "z": 0.45}, ...... ] </answer>

該布局 JSON 檔案既作為最終輸出，也作為強化學習中的環境狀态，用于評估和反饋。

獎勵函數與懲罰機制設計

為了衡量布局結果的好壞，MetaSpatial 構建了三級獎勵信号，分别從結構合法性、物理合理性和主觀偏好三個維度評價模型輸出：

1. 格式獎勵（Format Reward）

檢查輸出的 JSON 是否完整；

所有目标物體是否都被覆蓋；

每個物體是否都包含完整的空間參數（x/y/z 坐标、尺寸、方向等）。

2. 物理獎勵（Physics Reward）

利用輸出中的幾何信息重建場景；

計算是否存在物體之間的重疊（collision）；

檢查物體是否越界、浮空或違反場景邊界；

對不滿足物理約束的比例部分施加懲罰。

3. 物理獎勵（Physics Reward）

将輸出布局通過腳本用 Blender渲染為三維場景圖；

輸入至 GPT-4o 進行審美評分；

綜合評分其物理一致性、美學質量與用户偏好匹配度。

{'realism_and_3d_geometric_consistency': {'mean': 5.0, 'std': 0.0}, 'functionality_and_activity_based_alignment': {'mean': 6.0, 'std': 0.0}, 'layout_and_furniture': {'mean': 5.0, 'std': 0.0}, 'color_scheme_and_material_choices': {'mean': 4.0, 'std': 0.0}, 'overall_aesthetic_and_atmosphere': {'mean': 4.0, 'std': 0.0}}

最終獎勵為三者的加權組合，提供連續型反饋信号，以供強化學習優化使用。

Trajectory 生成與多輪布局優化

與傳統一次性生成不同，MetaSpatial 在訓練階段采用multi-turn rollout策略，允許模型對布局結果進行多輪 refinement：

初始布局生成後，模型可查看自己生成的坐标結構與得分；

根據獎勵反饋進行布局更新并重復多輪；

每一輪的輸入、輸出、獎勵構成一條布局軌迹（trajectory）；

多輪優化後選取最終布局作為當前 episode 的最終結果。

這種機制不僅提高了模型的布局能力，也為策略訓練提供了更多的高質量決策路徑。

策略優化：基于 GRPO 的強化學習訓練

為實現穩定、高效的策略更新，MetaSpatial 引入了Group Relative Policy Optimization（GRPO）。與常規的策略梯度方法不同，GRPO 不依賴于單條軌迹進行更新，而是利用同一輸入樣本生成的多條 trajectory作為一個 group 進行比較性學習。

具體過程如下：

對于每組輸入，執行多次 layout generation，得到若幹個軌迹；

比較這些候選軌迹的獎勵得分，計算相對優勢；

根據組内得分排序結果，優化策略網絡，使高獎勵軌迹的概率增加，低獎勵軌迹的概率下降；

避免了對某一 " 絕對最優 " 解的依賴，提升了學習過程的穩定性與策略的泛化能力。

借助 GRPO，MetaSpatial 能夠在樣本極少（如僅 50 條無标注數據）的情況下，穩定學得适應性強的空間決策能力。

MetaSpatial 實驗結果

1. Qwen2.5 的 7B 和 3B 兩個視覺語言模型（VLM）都從 MetaSpatial 框架中受益，但其中 7B 模型的性能提升更加顯著。相比之下，3B 模型仍然在輸出格式的生成方面存在困難，比如無法始終保持與輸入一致的物體數量和名稱，或是未能為所有物體持續穩定地提供完整的三維坐标（x, y, z）。

2. 實驗結果表明，MetaSpatial 能夠有效提升 Qwen2.5-VL 的 3B 和 7B 模型的空間布局能力，但其中 7B 模型的提升更加明顯。具體表現為：随着訓練的進行，7B 模型能夠生成更長、更穩定、結構更清晰的響應，而 3B 模型的輸出則表現出較大的不一致性，其響應長度波動較大，最小值和最大值之間頻繁跳變，顯示出在保持輸出格式一致性方面的困難（例如：物體數量正确、結構化空間坐标完整等）。相比之下，7B 模型的響應更加穩定，這也進一步印證了一個趨勢：規模更大的模型在強化學習驅動的空間推理任務中更具适應能力。

3. 在 "RL-Before vs RL-After" 的對比實驗中，MetaSpatial 框架在提升模型三維空間推理能力方面的效果得到了清晰體現。強化學習訓練前，模型生成的物體布局普遍混亂、錯位，且常出現物體漂浮、重疊或放置在不符合物理規律的位置等問題。訓練後，生成的布局則變得更加結構化、逼真，并且在語義上更加連貫，表現出更強的空間感知能力、物體對齊能力以及功能合理性。