今天小編分享的财經經驗:為什麼普通人「出圈」,都在小紅書?,歡迎閱讀。
機器之心報道
作者:WX
解碼小紅書推薦系統:為什麼在這裡普通人更容易被看見?
出差期間,我在酒店百無聊賴地打開了小紅書。一篇看似平淡無奇的筆記吸引了我的注意——一位 ID 叫「倚着彩虹看夕陽」的用戶發帖,說自己在酒店的床上看西遊記時,感覺到前所未有的放松。
從标題到配圖,這篇發布于去年 5 月的筆記沒有任何明顯的爆點,但顯然在小紅書上引發了廣泛的共鳴,收到了大量的點贊、收藏和評論。我也被吸引,陷入了 # 走不出的評論區。
現代人的信息獲取方式很大程度上受推薦系統所影響,這篇筆記在發布 8 個月後依然能進入我的視野,小紅書的推薦系統功不可沒。相比之下,很難想象同樣的内容在其他平台上也能得到如此廣泛的傳播。
為什麼在小紅書上普通人更容易被看見?它的流量算法,如何讓每個人都有機會成為爆款文的主角?為什麼身邊人越來越愛刷小紅書?
帶着這些疑問,我走訪了小紅書技術團隊,希望通過他們的解釋,能更深入地了解這個讓無數用戶感嘆「特别懂我」且「氛圍極好」的内容社區。
重視普通人表達——
小紅書内容分發和推薦邏輯
随着近些年用戶和内容的快速破圈,小紅書搖身一變,從「人間種草機」成為「生活百科全書」。作為一個基于用戶生成内容(UGC)的生活指南社區,小紅書融合圖文、視頻、直播等多種内容形式,内容維度非常豐富。推薦系統需要權衡多重目标優化,算法背後的價值觀讓小紅書選擇了不一樣的技術路徑——去中心化分發、注重用戶體驗和社區的高質量互動,這也形成了其特别的内容分發和推薦策略。
小紅書旨在創建一個「普通人幫助普通人」的内容分享社區,滿足普通人的内容被看見的需要。有一個非常典型的案例凸顯了小紅書推薦系統的快速與準确,曾經有一位女孩在信号較差的火車上發帖求助衛生巾,僅僅兩個小時後,她就收到了陌生人的神奇饋贈。在這裡,任何人都可以分享他們覺得有趣或有用的生活細節,無論多麼微小。
為什麼我們在小紅書上能看到這麼多「素帖爆火」的案例,其中一個重要的影響因素是技術分發的邏輯。小紅書的技術理念很獨特,将大約一半的流量給普通 UGC 用戶,讓普通人的創作有平等被看到的機會。與此同時,這些普通人的經驗與生活分享也會在未來逐步釋放出長尾價值。
在小紅書上,筆記被推薦的綜合考慮因素很多,沒有标準的公式一概而論。具體說,納入考慮的因子包括點擊、時長、完播、下滑、質量、點贊、收藏、關注、轉發、評論等。小紅書的推薦系統會根據用戶的習慣調整各因子的權重,一般會綜合考慮消費、互動和體驗類指标,結合用戶的消費行為偏好,實現個性化的權重組合。同時,小紅書推薦系統也會根據筆記的發布意圖來調整收藏、轉發和評論的權重,例如,日常分享類的筆記更看重點贊,工具類筆記更看重收藏,求助類筆記更看重評論。
小紅書上各種「被看見」的普通人普通事
當一篇新的筆記在小紅書發布後,它将經歷一系列復雜的處理步驟,通過「人以群分」的内容分發體系,把信息精準給需要的人。雖說當前各種推薦系統的核心算法和基本流程在很大程度上是類似的,但與傳統推薦系統追逐的「全局最優」不同,小紅書将流量分層,尋求「局部最優」,通過識别不同的人群,讓好的内容從各個群體中湧現出來,跑出了适合社區的新一代推薦系統。
那些素帖爆火背後的秘籍,無一不透露着:一個優秀的推薦系統,關鍵在于如何根據具體的應用場景、用戶行為和反饋來調整和優化這些基本方法。
對小紅書來說,關鍵的問題包括在冷啟/爬坡階段,如何進行内容理解從而定位種子人群并進行高效的人群擴散;在召回/排序環節,如何提升模型預測的精準度,以及如何進行實時流量調控;還有如何保證内容的多樣性,使用戶的短期興趣和長期興趣得到平衡。
挖掘長尾,高效分發——多模态内容理解
内容理解是推薦分發的基礎。精細和準确的個性化推薦,離不開對内容的充分理解,只有讓系統真正掌握了到底内容在講什麼,才能夠推薦得更加準确。傳統的内容理解主要依賴于标籤化體系,然而,這種體系的主要問題在于标籤粒度過大和标籤維度過窄。在小紅書這樣海量且多樣性強的内容場景中,這兩個問題尤其突出。無論如何定義标籤體系,都難以覆蓋多樣化、長尾化的内容,同時,标籤體系的運營更新也難以跟上内容的迭代和發展。
為了解決标籤化内容理解體系的問題,小紅書技術團隊借助大規模多模态預訓練模型,構建了向量化的内容理解體系。這種向量體系具有更開放的通識知識和動态自由的使用方案。作為傳統标籤體系的補充,向量化系統通過隐性聚類能力實現了細粒度、動态化的内容分類;另一方面,通過預訓練和微調的方式,提高了系統在更多維度上對内容識别和評價的精度。
在多模态預訓練方面,團隊采用了類似于 CLIP 的對比學習,在經過清洗和去噪的小紅書筆記樣本上進行訓練。小紅書是一個天然的優質多模态圖文對樣本集散地,通過将筆記封面圖和筆記标題組對的方式,不需要人工标注,就能獲得數以十億甚至更大的樣本集合,保證了樣本的規模性、多樣性和時效性。在優質樣本的支持下,團隊開發出了參數量從 10M 到 10B 不等的各種 backbone 選型,支持 BERT、RoBERTa、ResNet、Swin-T、ViT 等架構,以滿足下遊的各種使用需求。
以多模态預訓練向量為基座,實現對復雜多模态内容的綜合語義表征
在應用實例上,團隊實踐了基于筆記多模态向量的層次化内容聚類,用于 Feed 的多樣性打散。通過向量聚類得到的 ClusterID 作為隐性内容标籤,并通過調整聚類相似度門限來動态控制 ClusterID 的粒度,從而實現自由粒度上的相似内容打散和頻控。
基于純靜态内容特征刻畫筆記質量,實現冷啟/長尾優質内容高效分發
同時,團隊利用内容的後驗分發數據(例如點擊率、點贊率、快劃率等),對預訓練向量進行微調,從而實現對内容分發質量的級别預測。小紅書開創性地構建了一整套内容質量框架,利用封面圖片畫質美學模型和多模态筆記質量分模型,定義有用和美好的内容。由于内容分發質量完全聚焦在内容的靜态特征上,因此在冷啟動和長尾内容推薦上更為有效,不會受到馬太效應的影響,避免了推薦趨向于熱門内容的問題。
新筆記冷啟動,種子人群識别——
去中心化分發的基礎
小紅書發現,扶持新發布、低曝光的筆記可以增強作者的發布意願。在全網域曝光中,大約一半的流量分發是普通用戶發表的内容。優質、有價值、引發共鳴的内容永不過時。小紅書推薦分發還具有獨特的中長尾流量效應。哪怕一條筆記的初始數據一般,只要它有價值,系統捕捉到中長尾信号,依然會被推薦給需要的用戶,與發布時效無關。
一個素人博主沒有多少粉絲,創作的内容都有可能成為爆款,帖子點贊量或收藏數上千。在前文「酒店的床上看西遊記」的例子中,發帖的用戶粉絲量少,主頁互動内容也不多,如何對其進行推薦和展示?
這歸結為推薦系統的一個核心問題——新内容的冷啟動。冷啟動的問題本質是在行為數據比較少的情況下充分理解内容,從而實現更精準的推薦,一般會被建模為一個 Regret Minimization 問題,主要關注如何最小化獎勵函數的損失值。其中,獎勵函數的估值标準至關重要,因為它反映了每個平台的不同價值選擇。
多數平台會選擇消費類指标,如點擊率和停留時長,作為獎勵函數的評估标準。相比别的平台,小紅書具有更強的 UGC 生态,社區屬性更強。所以,在冷啟動階段,系統更加關注高質量評論的數量、挖掘高潛筆記,因為高質量的評論數量反映了目标人群對新内容的互動情況,也即新内容是否被準确分發到了符合其特性的人群中。
在新内容冷啟動問題方面,小紅書技術團隊形成了一套包含 4 步的 pipeline:
1、内容信息提取:新内容剛上傳時,沒有用戶行為信息,只能通過内容信息進行分發。技術團隊運用 NLP、CV 和多模态融合技術,提取内容信息,生成相關的話題和内容特征。
2、種子人群圈選和投放:團隊利用内容信息定位目标人群,這些人群是通過雙塔模型和圖神經網絡產出的用戶 Embedding 進行聚類得到的。然後根據内容信息,判斷哪些人群對新内容更感興趣。新内容在種子人群中的投放,借助貝葉斯尋優調整 boost 系數,以找到用戶指标損失和新内容曝光的最優權衡。
3、基于行為反饋的人群擴散:在初期分發後,新内容會積累一定的用戶反饋。小紅書希望将這些新内容也分發給與反饋用戶相似的其他用戶。他們通過 lookalike 模型進行人群擴散,根據與新内容有過互動的用戶向量生成新内容向量,并将其作為向量索引。通過定義不同的用戶向量和新内容向量的相似度函數,小紅書推薦系統 lookalike 模型的點擊率提高了約 7%。
4、模型承接:在完成初期的冷啟動後,新内容進入正常分發階段。模型的時效性決定了模型是否能有效處理新内容。通過持續迭代,目前小紅書首頁推薦的召回、粗排和精排模型的訓練都做到了分鍾級更新。
最終的效果,小紅書已經實現了每日新内容占 40% 曝光,新内容的分發效率(pCTR)與老内容持平,且 24 小時内冷啟動完成率超過 98%。
推薦多樣性,長短期興趣的平衡——
興趣的探索和保留
在小紅書 APP 首頁,會用「發現 Explore」定義信息流推薦的場景,希望能夠幫助用戶發現感興趣的内容,或是找到新的興趣。在「發現」這一目标的驅動下,多樣化的推薦顯得尤為重要。
用戶的興趣是多樣化的,并且會随着時間的推移而變化。這些變化可能體現在一天的早晚,一年的四季,或者人生的不同階段。因此,小紅書的推薦系統不僅要提供用戶當前感興趣的内容,還要積極探索用戶可能感興趣的新領網域,以更好地滿足用戶的期待。
為了達到推薦多樣性的目标,小紅書推薦系統引入了兩個關鍵策略——精細化信号利用(Exploitation)和探索(Exploration)。在精細化信号利用中,系統對用戶在多個場景(如搜索、推薦、個人頁和作者頁等)的各種行為進行精細化利用,歸因不同場景不同權重,并根據用戶的行為歷史進行序列化建模(實時、近一天、近一周、近一個月、近一年)。這種方法提高了模型對用戶興趣的捕獲和刻畫能力,有助于滿足用戶的短期興趣。
在探索策略中,系統使用 DPP 和 MGS 等向量打散機制,解決追打密集導致的實時興趣内容過量、長期興趣快速遺忘的問題。同時,系統通過人群召回來解決興趣探索問題,有助于發現并滿足用戶的長期興趣。
為了平衡推薦質量與多樣性,小紅書提出了滑動頻譜分解(Sliding Spectrum Decomposition,磁碟)模型。在信息流推薦場景中,磁碟 模型通過高效的滑窗計算,将單篇模型的價值排序轉化為整個浏覽周期的建模。
在多樣性的定義中,需要利用 Embedding 來計算内容的相似度。相對于頭部内容,中長尾内容的用戶互動數據更加稀疏,傳統的協同過濾方法在計算相似度時效果不佳。因此,團隊設計了一種基于内容的協同過濾方法(CB2CF),使用内容信息預測協同過濾的結果,更有效地衡量中長尾内容的相似性。CB2CF 方法僅使用内容作為輸入,依賴模型的泛化能力為新内容提供良好的預測結果,同時依賴全體用戶的協同标注獲取用戶感知的信号,從而提高推薦質量。
CB2CF 的思想源于微軟 2019 年發表在 RecSys 上的工作。小紅書在此基礎上改進了 loss 的構造方法,取得了更好的結果 [ 1 ]
大模型時代,推薦系統的下一站
作為近年來增長最快速的移動互聯網平台之一,小紅書證明了推薦系統可以兼顧用戶價值和平台利益。當用戶在平台表達自己的偏好,如對哪種類型的内容感興趣、希望看到和不希望看到哪些人或事等,推薦系統會精準的感知并不斷調優來滿足用戶需求。這樣,用戶的滿意度提升,社區持續長大,平台的流量價值和商業利益就在其中自然而然地生長起來。
在大模型時代,推薦系統正面臨着前所未有的發展機遇。大模型具有強大的泛化能力和知識理解能力,可以為推薦系統帶來更精準的推薦結果、更好的用戶體驗,以及解決實際問題的能力。然而,大模型在推薦系統中的應用也面臨着諸多挑戰,如計算資源需求、模型可解釋性等。
随着大模型的蓬勃發展,小紅書的推薦系統将如何演進?
大模型時代推薦系統的機遇和挑戰
目前,在推薦系統與大模型結合領網域,存在兩種技術路線:一種是将大語言模型(LLM)發展或改造成為一個推薦系統,另一種則是将現有推薦系統與 LLM 結合,例如将 LLM 作為特征編碼器,或者作為推薦 pipeline 的控制/調度模塊。
在第一種路線上,小紅書進行了一系列的嘗試。現階段而言,主要挑戰在于處理速度過慢。盡管輸入的參數有時會帶來出人意料的結果,但這種方法與長期積累的推薦系統工具和算法之間存在斷裂。小紅書技術團隊發現,如果完全依賴于 LLM 進行推薦,那麼推薦性能将從一個相對高的行業基線跌落。因此,小紅書技術團隊目前更偏向于後者,也即在推薦系統的傳統流程中融入 LLM 的功能,他們認為這是一個極具潛力的研究方向。
總的來說,推薦系統與大模型的結合具有巨大的發展前景,特别是讓用戶能夠接受和系統進行多輪互動這一點,與傳統搜推系統場景不同,大多數用戶都願意與 ChatGPT 等 LLM 多聊上幾句,讓推薦系統有了更多機會去學習和了解用戶的意圖和需求,而傳統場景下用戶在最初一兩次搜索沒有得到想要的結果後便會離開。因此,對于有明确業務場景的公司,可以在大模型時代挖掘出新的機會。
結語
在網絡内容爆炸的當下,小紅書的推薦系統通過其獨特的算法和設計,為普通人提供了一個發現和被發現的平台。這種理念背後的用戶導向和社區價值,讓每個用戶的聲音都有可能被放大,成為共鳴的起點。
随着技術的發展,推薦系統需要更多人性化的考慮,例如,如何在确保内容質量和保持算法公正性之間找到平衡,如何避免讓不具備長期價值的内容被過度放大。大模型時代,推薦系統的可解釋性和透明度如何增強,也是一個重要的挑戰。
在小紅書的案例中,我們看到了技術如何助力構建更加平等和多元的内容生态,這個過程中的技術抉擇和價值考量是推動社區長期健康發展的關鍵。對于用戶而言,思考這些問題,不僅是享受個性化内容帶來的便捷,也是理解和參與未來數字社會的重要一步。