我在淘天做算法：十年拍立淘，一部視覺算法技術演變史

今天小編分享的科學經驗：我在淘天做算法：十年拍立淘，一部視覺算法技術演變史，歡迎閲讀。

The following article is from 淘天集團算法技術 Author 钰灏

編者按：提到 " 程式猿 "，大家腦海中是不是立刻浮現出格子衫、不修邊幅、呆滞的畫面形象？這些刻板印象已經 out 啦，其實程式員們都是敬業又聰明的熱血少年！他們不僅善于思考和洞察，還特别擅長發現和解決問題。當然 i 人确實比 e 人多是真的。為了讓讀者們更多了解淘天集團算法工程師們的故事，我們特意推出《我在淘天做算法》專欄，一起看看真正的 " 程式猿 " 是啥樣。

在人類歷史長河中，每一次技術革命無不成為產業更新的強勁推手。計算機視覺（Computer Vision）的工作原理與人類視覺類似，但需要機器依靠攝像頭、數據和算法在很短的時間内完成任務。

從上世紀 60 年代起始，計算機視覺經歷了以特征工程和傳統機器學習方法為代表的技術發展。從 2012 年開始，以卷積神經網絡（CNN）為代表的深度學習的廣泛應用，更是給計算機視覺帶來了突破性進展。

在淘天集團，依托于計算機視覺技術原理的拍立淘上線已整十年，恰好經歷了視覺算法技術的發展演變。

Passion！拍甚？只要你勇敢地拍立淘，什麼都可以拍到。

脱口秀演員付航近日在短視頻中所説的 " 拍甚 "，正是剛剛過完十年生日的淘寶拍立淘產品。

△拍立淘產品照片

回想起十年前的 2014 年，拍立淘在淘寶 App 首頁上線，打開了人們通過影像搜索進行購物的視窗，帶來了視覺搜索領網域創新變化。

十年後的 2024 年，拍立淘深耕 AI 着力于用多模态技術更新，日均訪客量突破 5000 萬，視頻虛拟試衣也即将上線，旨在讓 AI 更好理解生活消費場景。拍立淘技術迭代的背後，離不開一群對技術不斷追逐且精于探索的程式員——他們就是淘天集團拍立淘算法團隊。

△拍立淘的核心算法模塊

羅馬不是一天建成的，任何技術實現都不是一蹴而就的。

柯思，淘天集團拍立淘算法負責人，是身材瘦弱但卻工作上 " 霸得蠻 " 的湖南人。在柯思看來，每一項技術從實驗階段走向產業階段都并非易事，基于商品理解的拍立淘也不例外，不僅要具備深厚的技術積澱，還需要恰逢其時地遇到能夠發揮技術潛力的應用場景。

拍立淘的技術啓發，來源于深度學習教父 Geoff Hinton 團隊在 2012 年大規模影像分類比賽以絕對優勢獲得冠軍。

自嘲記性不好的柯思卻清晰記得拍立淘技術原點——深度學習技術突破性進展。早在 2012 年，阿裏巴巴率先着手讓深度學習在影像搜索上得以探索應用，比亞馬遜早了整整 5 年。當年，阿裏巴巴也成為全球電商領網域第一個在圖搜領網域 " 吃螃蟹 " 的公司。

在中國科學院大學就讀期間，柯思就在深度學習技術領網域鑽研，特别是視覺算法領網域，為日後在阿裏巴巴從事拍立淘技術奠定了深厚的理論基礎。

回想起拍立淘項目早期那段充滿挑戰的日子，柯思回憶説：" 與側重于廣泛視覺應用場景下的影像檢索方案不同，拍立淘選擇了一條更為專精的道路——專注于實現同款商品圖片搜索功能。這就要求我們在算法設計上達到前所未有的精準度。"

萬事開頭難，當時在工業界和學術界并沒有影像搜索的應用先例，技術團隊面臨最大難題在于加快突破影像搜索技術邏輯。文本語言與視覺語言有着天然的區别，視覺符号往往比文字更能呈現出直觀、形象的視覺體驗效果。遇到無法用簡短抽象的語言來描述的物理世界當中的物品，人們天然喜歡用畫出來的形式來表達。

為了推出影像搜索，當時的阿裏巴巴 iDST 視覺團隊在電商領網域對影像分類、目标檢測以及影像表征技術進行了深入且富有成效的研究。影像分類技術使得系統能夠準确識别出圖片中的商品類别；目标檢測則幫助定位并識别圖片中具體商品的位置與邊界；而影像表征技術則是通過學習高維特征向量來表達每一張圖片的獨特性，從而支持高效精準的相似度匹配。這三項核心技術相輔相成，共同構建了影像檢索引擎。這些研究為拍立淘應用場景提供了技術基礎。

經過一系列嚴謹的研發、測試以及迭代優化，" 拍立淘 " 終于在 2014 年正式面世。在此之前，傳統的文本搜索方式往往難以滿足消費者對于特定外觀或風格商品的需求，尤其是當他們不知道如何用文字準确描述想要尋找的商品時。

" 拍立淘 " 的出現解決了這個問題：只需簡單地拍攝或上傳一張照片，拍立淘就能迅速從海量商品庫中找到最接近該圖片樣式的商品信息，包括價格、評價等關鍵信息。

摸着石頭過河

在拍立淘剛起步那會兒，商品搜索信息的精準性，是影像搜索面臨的最大挑戰。然而，當時的深度學習領網域仍處在一個在非常不成熟的發展狀态。

在巨大挑戰面前，算法工程師們摸着石頭過河。他們一邊緊盯着最前沿的研究成果，一邊又把最新知識和實際工作場景結合起來。通過不斷的迭代優化與技術更新，拍立淘算法變得越來越 " 聰明 "，也越來越貼近用户的需求。

2013 年，主流搜索引擎公司推出了影像搜索產品，讓用户們眼前一亮，但電商領網域的影像搜索則需達到更高水平的精确度，以準确匹配用户心中所想購買同款商品的需求。據柯思回憶，那時候用户通過手機上傳的照片質量真是五花八門。有的照片看起來就像是一團模糊的影子；有的背景復雜得像是在集市上拍的，各種雜物和人影亂入。

這些因素給影像數據的準确性帶來了很大挑戰。算法工程師們不僅要提升算法的 " 視力 "，還要學會如何在各種奇怪的拍攝環境下保持冷靜。有一次，一個用户上傳了一張在夜市攤位前拍的照片，背景中有各種小吃、人群和霓虹燈，而商品卻只占了照片的一小部分。為了準确識别出這個商品，團隊成員們費盡心思，最終成功地解決了這個問題。團隊成員們戲稱自己是影像搜索界的福爾摩斯。

即便是在 2014 年，淘寶商品庫也已擁有超過 1 億件商品。在這樣浩大的商品庫中實現精準的影像搜索技術，無異于 " 大海撈針 "。這不僅需要算法團隊對計算機視覺、機器學習和深度學習這些尖端技術有深刻的理解，還得把這些高深的技術變得簡單易用，化繁為簡。比如，用户上傳了一張在昏暗燈光下拍的鞋子照片，算法工程師們就要通過一系列復雜的計算和分析，從海量商品中準确地找出那雙鞋。用柯思的話來説，這個過程就像是在 " 海底撈月 "，但最終的目标是讓用户感受到 " 心有靈犀一點通 " 的個性化推薦體驗。

面對重重挑戰，算法工程師們攻克了一個又一個技術難關：他們構建了一套深度學習訓練與推理引擎，讓復雜的算法得以高效運行；掌握了大規模數據訓練的技巧，使其成為精準模型的滋養之源；為了确保算法能夠穩定可靠地服務于廣大用户，工程師們還實現了高性能在線服務部署布局；他們搭建起了大規模向量索引引擎架構，提高了信息檢索的速度，使得内容匹配變得更加精準。

2017 年，Facebook 所開源的向量索引庫 FAISS，成為工業界向量搜索領網域标杆，但是拍立淘算法團隊在内部開發了超越 FAISS 的向量索引庫，不僅在速度上實現了對 FAISS 的十倍超越，實現了相較于前代技術四分之一的資源消耗，提升了能效比與成本效益，為推動向量計算領網域的發展樹立了新的裏程碑。

這件事讓整個技術團隊都感到十分振奮自豪。慶祝晚宴上酒過三巡，算法工程師們都感慨：" 我們做到了想都不敢想的事情，像是定義了電商影像搜索新時代！"

2021 年，多模态成為學術界、工業界的研究前沿熱點。然而受限于數據與計算能力，當時拍立淘的核心模塊依然是單影像模态模型，即針對商品分類構建多個模型，通過對比用户圖片與數據庫中的圖片實現檢索。随着用户對圖搜需求的飛速提升與商品數據量的巨幅增長，單影像模态模型已然捉襟見肘。

在多模态技術框架下探索算法創新，成為了擺在拍立淘算法團隊面前的一道必答題。" 我們集中精力，全力以赴推動多模态算法在拍立淘平台上的落地應用。"蕭峰説。

2018 年，蕭峰在上海交通大學完成碩博連讀後，加入了阿裏巴巴，熱衷于對視覺算法技術和人工智能探索和實踐。大學時期，蕭峰曾多次研讀美國物理學家理查德 · 費曼的書籍，" 正如費曼教授所倡導的那樣，事實和真相是科學絕對的要求。無論是面對科研還是日常工作中的挑戰，力求從一個更加批判而富有創造性的視角出發，尋找問題的本質并尋求最優解。"

△拍立淘多模态商品理解模型示意圖

為了能夠讓淘寶的圖搜更快、更精準，蕭峰等人對拍立淘圖搜 AI 技術進行了全鏈路重構。這項算法技術被賦予了一個新的稱謂：大規模多模态同款搜索 AI 技術。2021 年，算法團隊在行業内率先将核心召回和相關性向量表征等模塊由單模态更新到多模态，并置于圖文對齊預訓練的技術統一框架下。不同于文本搜索的關鍵詞匹配和召回，影像搜索的唯一召回方式只能是通過将 Query 和商品映射到高維向量空間下，進行向量的近鄰搜索。向量表征是影像搜索中最核心的技術。

2021 年雙 11 年度大促活動前夕，算法工程師們決定以多模态相關性模型承接較大流量，同時提升搜索準确性。" 當時線上有六七個模型，我們嘗試用一個模型進行替代，走了一條還未驗證過的路。" 蕭峰説，" 這個過程并非易事，需要不斷反復實驗驗證。"

如何更高效地利用多種模态信息、建模淘寶數百億圖文數據是提升淘寶搜索準确性的關鍵。團隊開創性地應用大規模多模态分類的方法，從離線驗證到線上部署，一步步驗證效果，最終成功地更新了線上的模型。在 2021 年度的產品體驗相關性評測中，同款率絕對值顯著提升了 12 個百分點，這是拍立淘上線以來在商品匹配精準度方面提升幅度最大的一年。

2022 年底，多模态大模型驚豔亮相。多模态大模型雖然效果出眾，但是資源消耗和運行耗時也是非常高。拍立淘算法團隊通過應用知識蒸餾技術來解決這一瓶頸問題。在知識蒸餾過程中，通過技術手段，将教師模型的強悍能力遷移到學生模型身上，蒸餾過後，小模型即可以小很多的運行成本達到接近大模型的能力。算法團隊首先将此應用到了 Query 和商品理解上。

業餘時間，蕭峰喜歡到杭州附近山區爬山。他説：" 爬山總能給我帶來很多思考，就好像技術上的一座座山，總會有難度，但是爬過去就感覺不難了。"

與 AI 碰撞出了新風口

進入 2024 年， Sora 的出現意味着視頻生成初步成熟可用，拍立淘算法團隊也感到觸動并随之 " 神經敏感 " 起來。迎着風口，團隊開始嘗試讓 AIGC 在拍立淘中得到技術運用。

林夕是團隊當中為數不多的女孩子，生活中是喜歡跳舞、喜歡彈吉他、能打架子鼓的 e 人，工作敲代碼時就變成沉穩内斂的 i 人。女孩子天生愛美，也善于敏鋭發現拍立淘在服飾方面的微妙變化。

在多次調研中，林夕就發現，拍立淘已經能很好地滿足用户搜索同款服飾的需求，但是該如何搭配服飾以及體驗試穿效果依然是非常核心但未被完全解決的問題。受限于經濟成本、知識成本和店鋪商品數量，服飾商家們并不具備提供豐富多樣且前沿的跨店搭配能力，個性化的試穿能力就更為困難。

林夕説：" 我們團隊長期以來在服飾類目積累的多模态理解能力和 AIGC 生成能力，恰恰為這兩個痛點提供了解決方案。經過一番思考讨論，團隊一致認為通過 AIGC 低成本大規模制作個性化服飾内容具有可行性。"

然而，現實很骨感，AIGC 在電商服飾上的探索研究并不多，受限于以往的算法技術和有限的開源數據集，相關學術研究也都基本僅限于平鋪圖片輸入，少量簡單服飾款式和單一的模特動作以及場景，無法滿足用户多樣性需求。

△試衣算法支持各種困難姿态以及實景拍攝的搭配上身

基于商品理解感知體系和同款表征能力，背靠淘天内部海量業務數據加上自研算法架構，林夕等人很快設計完成了一套能真正支撐商業應用的試衣算法解決方案。該方案不僅可以支持單件和搭配上身，适應簡單和復雜背景及多種姿勢，還能夠保持服飾真實美觀，精準控制穿法和上身狀态，呈現搭配效果，突出服飾風格。

林夕興奮地説：" 試衣算法解決方案就好比讓我們找到了指南針。" 他們不斷優化方案，不僅讓衣服試穿更準确，還增加了配飾、臉部和身形的定制功能。現在，這些算法能力已經用在淘寶系搭配上，提升商品搭配多樣性和美觀度。他們即将推出的拍立淘搭配產品，用户只需要上傳自己的照片和身材信息，系統就會根據選擇的衣服推薦其他搭配，并展示出整體效果。基于這些成果，團隊還在 ECCV 和 ACM MM 國際頂級會議上發表了兩篇論文。

△視頻試衣能在高運動幅度的場景保證高質量輸出△視頻試衣能在不同運鏡場景保證高質量輸出

在之前的積累和經驗之上，算法團隊将影像試衣的能力也拓展到了視頻上，并提出了業内第一個基于 diffusion 框架的視頻試衣方案，将視頻試衣的效果提升到了一個全新的水平，為其商業落地創造可能。不同于之前的算法方案，現有方案适用于所有服飾類目，支持復雜實拍場景，同時能處理各種拍攝運鏡和人物在畫面中的動作和空間變化，使得生成視頻結果更加自然豐富且生動，符合頭部商家對模特視頻的質量要求。