大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

我在淘天做算法:十年拍立淘,一部视觉算法技术演变史

2024-11-08 简体 HK SG TW

今天小编分享的科学经验:我在淘天做算法:十年拍立淘,一部视觉算法技术演变史,欢迎阅读。

The following article is from 淘天集团算法技术 Author 钰灏

编者按:提到 " 程式猿 ",大家腦海中是不是立刻浮现出格子衫、不修边幅、呆滞的画面形象?这些刻板印象已经 out 啦,其实程式员们都是敬业又聪明的热血少年!他们不仅善于思考和洞察,还特别擅长发现和解决问题。当然 i 人确实比 e 人多是真的。为了让读者们更多了解淘天集团算法工程师们的故事,我们特意推出《我在淘天做算法》专栏,一起看看真正的 " 程式猿 " 是啥样。

在人类历史长河中,每一次技术革命无不成为产业更新的强劲推手。计算机视觉(Computer Vision)的工作原理与人类视觉类似,但需要机器依靠摄像头、数据和算法在很短的时间内完成任务。

从上世纪 60 年代起始,计算机视觉经历了以特征工程和传统机器学习方法为代表的技术发展。从 2012 年开始,以卷积神经网络(CNN)为代表的深度学习的广泛应用,更是给计算机视觉带来了突破性进展。

在淘天集团,依托于计算机视觉技术原理的拍立淘上线已整十年,恰好经历了视觉算法技术的发展演变。

Passion!拍甚?只要你勇敢地拍立淘,什么都可以拍到。

脱口秀演员付航近日在短视频中所说的 " 拍甚 ",正是刚刚过完十年生日的淘宝拍立淘产品。

△拍立淘产品照片

回想起十年前的 2014 年,拍立淘在淘宝 App 首页上线,打开了人们通过影像搜索进行购物的視窗,带来了视觉搜索领網域创新变化。

十年后的 2024 年,拍立淘深耕 AI 着力于用多模态技术更新,日均访客量突破 5000 万,视频虚拟试衣也即将上线,旨在让 AI 更好理解生活消费场景。拍立淘技术迭代的背后,离不开一群对技术不断追逐且精于探索的程式员——他们就是淘天集团拍立淘算法团队。

△拍立淘的核心算法模块

罗马不是一天建成的,任何技术实现都不是一蹴而就的。

柯思,淘天集团拍立淘算法负责人,是身材瘦弱但却工作上 " 霸得蛮 " 的湖南人。在柯思看来,每一项技术从实验阶段走向产业阶段都并非易事,基于商品理解的拍立淘也不例外,不仅要具备深厚的技术积淀,还需要恰逢其时地遇到能够发挥技术潜力的应用场景。

拍立淘的技术启发,来源于深度学习教父 Geoff Hinton 团队在 2012 年大规模影像分类比赛以绝对优势获得冠军。

自嘲记性不好的柯思却清晰记得拍立淘技术原点——深度学习技术突破性进展。早在 2012 年,阿里巴巴率先着手让深度学习在影像搜索上得以探索应用,比亚马逊早了整整 5 年。当年,阿里巴巴也成为全球电商领網域第一个在图搜领網域 " 吃螃蟹 " 的公司。

在中国科学院大学就读期间,柯思就在深度学习技术领網域钻研,特别是视觉算法领網域,为日后在阿里巴巴从事拍立淘技术奠定了深厚的理论基础。

回想起拍立淘项目早期那段充满挑战的日子,柯思回忆说:" 与侧重于广泛视觉应用场景下的影像检索方案不同,拍立淘选择了一条更为专精的道路——专注于实现同款商品图片搜索功能。这就要求我们在算法设计上达到前所未有的精准度。"

万事开头难,当时在工业界和学术界并没有影像搜索的应用先例,技术团队面临最大难题在于加快突破影像搜索技术逻辑。文本语言与视觉语言有着天然的区别,视觉符号往往比文字更能呈现出直观、形象的视觉体验效果。遇到无法用简短抽象的语言来描述的物理世界当中的物品,人们天然喜欢用画出来的形式来表达。

为了推出影像搜索,当时的阿里巴巴 iDST 视觉团队在电商领網域对影像分类、目标检测以及影像表征技术进行了深入且富有成效的研究。影像分类技术使得系统能够准确识别出图片中的商品类别;目标检测则帮助定位并识别图片中具体商品的位置与边界;而影像表征技术则是通过学习高维特征向量来表达每一张图片的独特性,从而支持高效精准的相似度匹配。这三项核心技术相辅相成,共同构建了影像检索引擎。这些研究为拍立淘应用场景提供了技术基础。

经过一系列严谨的研发、测试以及迭代优化," 拍立淘 " 终于在 2014 年正式面世。在此之前,传统的文本搜索方式往往难以满足消费者对于特定外观或风格商品的需求,尤其是当他们不知道如何用文字准确描述想要寻找的商品时。

" 拍立淘 " 的出现解决了这个问题:只需简单地拍摄或上传一张照片,拍立淘就能迅速从海量商品库中找到最接近该图片样式的商品信息,包括价格、评价等关键信息。

摸着石头过河

在拍立淘刚起步那会儿,商品搜索信息的精准性,是影像搜索面临的最大挑战。然而,当时的深度学习领網域仍处在一个在非常不成熟的发展状态。

在巨大挑战面前,算法工程师们摸着石头过河。他们一边紧盯着最前沿的研究成果,一边又把最新知识和实际工作场景结合起来。通过不断的迭代优化与技术更新,拍立淘算法变得越来越 " 聪明 ",也越来越贴近用户的需求。

2013 年,主流搜索引擎公司推出了影像搜索产品,让用户们眼前一亮,但电商领網域的影像搜索则需达到更高水平的精确度,以准确匹配用户心中所想购买同款商品的需求。据柯思回忆,那时候用户通过手机上传的照片质量真是五花八门。有的照片看起来就像是一团模糊的影子;有的背景复杂得像是在集市上拍的,各种杂物和人影乱入。

这些因素给影像数据的准确性带来了很大挑战。算法工程师们不仅要提升算法的 " 视力 ",还要学会如何在各种奇怪的拍摄环境下保持冷静。有一次,一个用户上传了一张在夜市摊位前拍的照片,背景中有各种小吃、人群和霓虹灯,而商品却只占了照片的一小部分。为了准确识别出这个商品,团队成员们费尽心思,最终成功地解决了这个问题。团队成员们戏称自己是影像搜索界的福尔摩斯。

即便是在 2014 年,淘宝商品库也已拥有超过 1 亿件商品。在这样浩大的商品库中实现精准的影像搜索技术,无异于 " 大海捞针 "。这不仅需要算法团队对计算机视觉、机器学习和深度学习这些尖端技术有深刻的理解,还得把这些高深的技术变得简单易用,化繁为简。比如,用户上传了一张在昏暗灯光下拍的鞋子照片,算法工程师们就要通过一系列复杂的计算和分析,从海量商品中准确地找出那双鞋。用柯思的话来说,这个过程就像是在 " 海底捞月 ",但最终的目标是让用户感受到 " 心有灵犀一点通 " 的个性化推荐体验。

面对重重挑战,算法工程师们攻克了一个又一个技术难关:他们构建了一套深度学习训练与推理引擎,让复杂的算法得以高效运行;掌握了大规模数据训练的技巧,使其成为精准模型的滋养之源;为了确保算法能够稳定可靠地服务于广大用户,工程师们还实现了高性能在线服务部署布局;他们搭建起了大规模向量索引引擎架构,提高了信息检索的速度,使得内容匹配变得更加精准。

2017 年,Facebook 所开源的向量索引库 FAISS,成为工业界向量搜索领網域标杆,但是拍立淘算法团队在内部开发了超越 FAISS 的向量索引库,不仅在速度上实现了对 FAISS 的十倍超越,实现了相较于前代技术四分之一的资源消耗,提升了能效比与成本效益,为推动向量计算领網域的发展树立了新的里程碑。

这件事让整个技术团队都感到十分振奋自豪。庆祝晚宴上酒过三巡,算法工程师们都感慨:" 我们做到了想都不敢想的事情,像是定义了电商影像搜索新时代!"

2021 年,多模态成为学术界、工业界的研究前沿热点。然而受限于数据与计算能力,当时拍立淘的核心模块依然是单影像模态模型,即针对商品分类构建多个模型,通过对比用户图片与数据库中的图片实现检索。随着用户对图搜需求的飞速提升与商品数据量的巨幅增长,单影像模态模型已然捉襟见肘。

在多模态技术框架下探索算法创新,成为了摆在拍立淘算法团队面前的一道必答题。" 我们集中精力,全力以赴推动多模态算法在拍立淘平台上的落地应用。"萧峰说。

2018 年,萧峰在上海交通大学完成硕博连读后,加入了阿里巴巴,热衷于对视觉算法技术和人工智能探索和实践。大学时期,萧峰曾多次研读美国物理学家理查德 · 费曼的书籍," 正如费曼教授所倡导的那样,事实和真相是科学绝对的要求。无论是面对科研还是日常工作中的挑战,力求从一个更加批判而富有创造性的视角出发,寻找问题的本质并寻求最优解。"

△拍立淘多模态商品理解模型示意图

为了能够让淘宝的图搜更快、更精准,萧峰等人对拍立淘图搜 AI 技术进行了全链路重构。这项算法技术被赋予了一个新的称谓:大规模多模态同款搜索 AI 技术。2021 年,算法团队在行业内率先将核心召回和相关性向量表征等模块由单模态更新到多模态,并置于图文对齐预训练的技术统一框架下。不同于文本搜索的关键词匹配和召回,影像搜索的唯一召回方式只能是通过将 Query 和商品映射到高维向量空间下,进行向量的近邻搜索。向量表征是影像搜索中最核心的技术。

2021 年双 11 年度大促活动前夕,算法工程师们决定以多模态相关性模型承接较大流量,同时提升搜索准确性。" 当时线上有六七个模型,我们尝试用一个模型进行替代,走了一条还未验证过的路。" 萧峰说," 这个过程并非易事,需要不断反复实验验证。"

如何更高效地利用多种模态信息、建模淘宝数百亿图文数据是提升淘宝搜索准确性的关键。团队开创性地应用大规模多模态分类的方法,从离线验证到线上部署,一步步验证效果,最终成功地更新了线上的模型。在 2021 年度的产品体验相关性评测中,同款率绝对值显著提升了 12 个百分点,这是拍立淘上线以来在商品匹配精准度方面提升幅度最大的一年。

2022 年底,多模态大模型惊艳亮相。多模态大模型虽然效果出众,但是资源消耗和运行耗时也是非常高。拍立淘算法团队通过应用知识蒸馏技术来解决这一瓶颈问题。在知识蒸馏过程中,通过技术手段,将教师模型的强悍能力迁移到学生模型身上,蒸馏过后,小模型即可以小很多的运行成本达到接近大模型的能力。算法团队首先将此应用到了 Query 和商品理解上。

业余时间,萧峰喜欢到杭州附近山区爬山。他说:" 爬山总能给我带来很多思考,就好像技术上的一座座山,总会有难度,但是爬过去就感觉不难了。"

与 AI 碰撞出了新风口

进入 2024 年, Sora 的出现意味着视频生成初步成熟可用,拍立淘算法团队也感到触动并随之 " 神经敏感 " 起来。迎着风口,团队开始尝试让 AIGC 在拍立淘中得到技术运用。

林夕是团队当中为数不多的女孩子,生活中是喜欢跳舞、喜欢弹吉他、能打架子鼓的 e 人,工作敲代码时就变成沉稳内敛的 i 人。女孩子天生爱美,也善于敏锐发现拍立淘在服饰方面的微妙变化。

在多次调研中,林夕就发现,拍立淘已经能很好地满足用户搜索同款服饰的需求,但是该如何搭配服饰以及体验试穿效果依然是非常核心但未被完全解决的问题。受限于经济成本、知识成本和店铺商品数量,服饰商家们并不具备提供丰富多样且前沿的跨店搭配能力,个性化的试穿能力就更为困难。

林夕说:" 我们团队长期以来在服饰类目积累的多模态理解能力和 AIGC 生成能力,恰恰为这两个痛点提供了解决方案。经过一番思考讨论,团队一致认为通过 AIGC 低成本大规模制作个性化服饰内容具有可行性。"

然而,现实很骨感,AIGC 在电商服饰上的探索研究并不多,受限于以往的算法技术和有限的开源数据集,相关学术研究也都基本仅限于平铺图片输入,少量简单服饰款式和单一的模特动作以及场景,无法满足用户多样性需求。

△试衣算法支持各种困难姿态以及实景拍摄的搭配上身

基于商品理解感知体系和同款表征能力,背靠淘天内部海量业务数据加上自研算法架构,林夕等人很快设计完成了一套能真正支撑商业应用的试衣算法解决方案。该方案不仅可以支持单件和搭配上身,适应简单和复杂背景及多种姿势,还能够保持服饰真实美观,精准控制穿法和上身状态,呈现搭配效果,突出服饰风格。

林夕兴奋地说:" 试衣算法解决方案就好比让我们找到了指南针。" 他们不断优化方案,不仅让衣服试穿更准确,还增加了配饰、脸部和身形的定制功能。现在,这些算法能力已经用在淘宝系搭配上,提升商品搭配多样性和美观度。他们即将推出的拍立淘搭配产品,用户只需要上传自己的照片和身材信息,系统就会根据选择的衣服推荐其他搭配,并展示出整体效果。基于这些成果,团队还在 ECCV 和 ACM MM 国际顶级会议上发表了两篇论文。

△视频试衣能在高运动幅度的场景保证高质量输出△视频试衣能在不同运镜场景保证高质量输出

在之前的积累和经验之上,算法团队将影像试衣的能力也拓展到了视频上,并提出了业内第一个基于 diffusion 框架的视频试衣方案,将视频试衣的效果提升到了一个全新的水平,为其商业落地创造可能。不同于之前的算法方案,现有方案适用于所有服饰类目,支持复杂实拍场景,同时能处理各种拍摄运镜和人物在画面中的动作和空间变化,使得生成视频结果更加自然丰富且生动,符合头部商家对模特视频的质量要求。

△拍立淘算法团队团建照片

从创建之初每天仅有数百位访客,到现在日均访问量突破 5000 万,这不仅仅是用户基数的增长,更是广大用户对拍立淘技术实力的认可。十年来,拍立淘算法团队坚持自研技术,与时间赛跑推陈出新,从最初的影像视觉搜索,到如今将视频作为信息传播的载体,团队用十年时间跑出了一部属于自己的演变史。

正如柯思所说,拍立淘虽然实现了从 0 到 1 的突破,但如果原地踏步就会被落下,要时刻保持技术创新,才是真的「拍甚」!

* 本文系量子位获授权刊载,观点仅为作者所有。

—  完  —

量子位  QbitAI

վ ' ᴗ ' ի 追踪 AI 技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們