今天小編分享的科學經驗:推薦場景Scaling Law來了!中科大&華為諾亞方舟聯合推出,歡迎閲讀。
當 Scaling Law 應用于推薦場景,模型又将如何表現?
中科大認知智能全國重點實驗室陳恩紅團隊聯合華為諾亞方舟實驗室推出推薦模型性能定律,首次對模型的性能與模型、數據的規模和質量進行了定量分析。
針對現有工作只能對推薦大模型 Scaling Law(擴展定律)做定性分析的局限性,論文首次嘗試對推薦大模型性能擴展定律給出明确的定量預測。
具體地,相較于傳統大模型擴展定律裏的數據量指标,考慮推薦領網域的數據特性提出了序列數據的質量衡量指标,并從模型性能預測角度出發避免傳統擴展定律帶來參數增大導致的模型過拟合問題。
最終基于論文發現的推薦大模型性能預測定律,能夠在給定的數據集和模型配置下,有效預測模型的擴展潛力,同時實現模型參數的最優性能配置。
下面具體來看。
提出推薦大模型性能預測定律
序列推薦系統旨在根據用户過去的互動記錄預測下一個推薦給用户的物品,以此來捕捉用户的動态偏好。
近年來,随着商業和互聯網場景中用户數據量的急劇增長,推薦系統受到了越來越多的關注。然而,為了處理這些龐大的數據集,商用與學術領網域均開始采用更為復雜和龐大的推薦模型。
這些模型的高計算要求不僅帶來了巨大的開發成本,而且還使得開發過程中的資源分配和 GPU 使用變得充滿挑戰。
如上圖所示,為了更好地預測推薦模型在不同情況下的性能,研究者們開發了一系列的擴展定律,用于在無需進行大規模實驗的情況下評估和預測模型效果。
擴展定律最初在大型語言模型中進行探索。例如 Chinchilla 擴展定律的通過模型參數數量和訓練樣本的數量來預測預訓練損失。
然而,将擴展定律應用于推薦系統分析面臨兩大主要挑戰:
( 1 ) 與擴展定律中通常考察的模型損失指标相比,推薦模型中性能指标(如命中率)更為重要,由擴展定律導向的增大模型規模雖然能使模型損失降低,卻會由于模型過拟合問題導致性能出現衰減。
( 2 ) 除了數據的規模之外,推薦系統的數據集通常具有結構和協作特性,同時重復序列片段和冗餘度較高,這使得數據質量成為影響結果的核心因素,但在現有的推薦模型擴展定律中尚未被充分讨論。
這些挑戰使得現有的推薦系統擴展定律工作僅僅給出了一些定性的分析,并不能對模型的精度進行定量預測。
為應對這些挑戰,研究人員提出了推薦大模型性能預測定律,首次對模型的性能與模型、數據的規模和質量進行了定量分析。
通過拟合推薦模型的關鍵性能指标,包括命中率(HR)和歸一化折扣累積增益(NDCG),可以定量預測模型的層數和物品嵌入維度對其性能的影響。
此外,為了應對數據質量研究因素匮乏的挑戰,引入了近似熵(ApEn)作為評價數據質量的創新性指标,将原有擴展定律中的數據規模替換為數據規模與近似熵之比,并通過理論和實驗驗證了這一替代的合理性。
研究人員也對提出的大模型性能預測定律進行了應用實驗,有效地預測了模型的最優性能參數配置和擴展潛力。
引入近似熵因子
如前所述,研究人員引入了近似熵因子,以進一步增強序列推薦系統中的擴展定律。
具體來説,近似熵是一種用于量化時間序列數據的規律性和不可預測性的統計測度,其計算方法如下:
首先,對于一個長度為 N 的時間序列 { } 以及參數 m(嵌入維度)和 r(容差),構造 m 維向量 = [ ,+1,…,+m-1 ] ,其中 =1,…,N-m+1 。然後,定義兩個向量和之間的距離為:
接着,對于給定的容差 r ,計算相似性度量:
平均相似性的計算公式為:
最終,近似熵定義為:
在後續對近似熵的計算中,研究人員将容差設定為 r = 0 。這一決定是基于推薦物品的獨特特性,其中具有相似 ID 的產品可能傳達完全不同的意義。
總的來説,近似熵值越高,數據的重復率越高。
然而,傳統熵通常與數據復制率呈現負相關性。因此,盡管 ApEn 被冠以 " 熵 " 的稱謂,但其變化趨勢與傳統熵指标具有相反特性。
為避免概念混淆,本研究采用ApEn ′ =1/ApEn 作為近似熵的最終測度。研究人員進一步引入數據平均最小編碼長度作為最終的數據質量衡量指标。
由于重復的序列模式均可用相似的編碼表征,從而降低平均最小編碼長度,該指标将保障數據的最小可學知識量、有效防止重復與無效數據導致的數據量虛高問題。
研究證明了最小編碼長度有如下的下界保障引理。
假設用户序列可以被建模為一階非周期性平穩馬爾可夫鏈。如果用户序列為 S={S,∈ U } ,那麼所有序列的最小編碼長度之和 |U|L ( C ) 由以下公式給出:
這個下界表達了在給定的用户序列情況下,最小編碼長度應該至少等于序列元素長度總和除以序列的近似熵。這個不等式利用了近似熵的概念來提供編碼效率的下界。
于是研究人員将 D ′ = ∑∈ U|S| · ApEn ′ ( S ) 代入了原有的擴展定律公式 D。
研究人員進一步證明能将每一項參數用 1/x+log ( x)的形式以加入衰減項,從而優化性能拟合。他們拟合模型的最終形式為:
其中 N 為模型層數,demb 為嵌入維度,D ′ = ∑∈ U|S| · ApEn ′ ( S ) 為數據質量衡量指标,其餘均為拟合參數。
實驗環節驗證實驗
研究人員的驗證實驗目标是驗證理論的準确性,主要從兩個方面進行:一是其模型是否符合擴展法則,二是使用近似熵(ApEn)和标記數量來評估數據規模的方式是否合适。
他們首先檢查模型損失曲線與擴展法則的一致性,從影像上可看出實際模型性能非常貼合其表現定律。
然後,數據參數 D ’加入參數進行一并拟合,以研究其影響因素。在下圖中他們拟合的數據參數與 ApEn 的組合呈現出明确的線性關系,這證明了理論的有效性。
應用實驗
由于性能法則中包含衰減項,使得實現全局最優解成為可能。
在前述拟合分析的基礎上,研究人員在下表從全局和給定參數規模篇兩個方面利用 Performance Law 給出了兩個參數最優拟合,均獲得了較好的結果。
同時研究人員也可以在小規模實驗上分析拟合參數對模型增大時的提升潛力與全局最優性能進行預測。
他們在下表驗證了這個應用,在更小的衰減項參數上模型的擴展潛力更大,最優結果更強。
更多細節歡迎查閲原論文。
論文鏈接 : https://arxiv.org/abs/2412.00430
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見