今天小编分享的科学经验:网盘用上大模型后「真香」!压箱底黑照3秒找到,亲朋好友都不淡定了,欢迎阅读。
想不到,有了 AI 加持,我也有在我司鲨疯的一天!
同事的压箱底黑照,被我 3 秒钟就翻了出来,光速做成表情包先发制人。
喏,只需要在网盘的搜索框里输入 " 大笑的男人 ",立马就能检索到相关影像。
然后选中想要 " 攻击 " 的对象、点击编辑,就能一键加文字变表情包。
整个过程相当丝滑,我图都做完了,同事那还在找图呢(doge)。
而且这个搜索还能直接理解 "什么是表情包",可以一键找到之前做好的图。
咱就是说,在堆满陈年老照片和资料的网盘里用上精准搜索,斗图大王舍我其谁。
除了照片,它甚至还能直接搜同事的视频、或识别表情包中的文字,搜索灵活度很高。
所以,这个功能究竟在哪里开启,相比传统相册搜索又有啥不一样的地方?
典藏表情包搜索 " 神器 "
首先,在百度网盘里启用这个智能搜索功能。
打开网盘搜索框,输入 "高级图片搜索",就会显示一个功能入口,进入后点击 " 立即体验 " 并等数据更新完成,系统就会发送通知,可以上手开玩了 ~
启用高级图片搜索功能后,在网盘主页的搜索框里就能一键搜图,不用再特意进入某个工具中。
怎么搜?" 腦子里想啥就搜啥 "。
以搜索单个词汇为例,比如 " 比耶 " 和 " 挤眉弄眼 " 这种模糊的表达,智能搜索就秒懂:
像 " 修狗 " 这样的网络热词,也在它的掌握之中。
甚至还进化出了自己的" 偏见 ",比如和 " 发布会 " 关联的往往是 "PPT"(doge):
不止是单个复杂词汇或形容词,搜图时还可以直接说一整句描述,甚至加多个限定词。
同时,随着输入的细节增加,它的搜索结果还会实时调整。
比如只输入 " 睡觉的 ",可以看到系统找到的第一张照片,是一张猫猫躺着的表情包。
但随着关键词完善到 " 睡觉的人" 以后,这张猫片就马上被系统筛了出去。
除了准确把握图片精髓外,这个智能搜索还能识别图片中的文字,搜索结果也很全面。
比如搜 " 绷不住了 ",它不仅能给出图文完全一致的表情包,还会放出其他相似图片:
搜索范围上,不止是找图,这个功能就连视频也能搜。
总之,网盘的智慧搜索新功能,让找照片、视频等檔案不再是个费力的 " 提示词工程 "。
要想搜到自己的照片,只用和网盘 " 聊聊天 " 就行,它就能像人一样准确 get 你要找的那张照片。
所以,这个功能究竟是怎么实现的?我们扒了扒背后的技术原理,发现还真没那么简单。
背后果然用上了大模型
智慧搜索,本质上有点像一个自带图片 + 视频智能查找功能的 " 私人定制版 " 网盘搜索引擎。
但为了实现这个功能,百度网盘团队甚至连大模型都用上了,核心目的,在于解决传统图片搜索的四大问题——
搜不到、搜不准、搜不快、搜索方式单一。
首先要解决的、也是最大的难点之一,是 " 搜不到 " 的问题。
传统按标签搜索的相册,内置搜索引擎没有真正将图片和文字之间的 " 含义 " 关联起来,换言之就是 " 文不对图 "。
△普通手机的标签式搜索
为了解决这一问题,团队选用了百度文心的多模态大模型VIMER-ViLP,并用海量图片和文本数据对它进行了训练,来实现基于向量的语义搜索。
这类方法的核心原理,是将文本和影像的特征向量映射到同一个语义向量空间,向量之间距离越近,相似度就越高,同时也能避免语义丢失,降低 " 搜不到 " 的概率。
相比 CLIP,VIMER-ViLP 在训练时采用的中文数据更多,因此搜特殊中文名词也会更准确。例如,在博物馆内拍摄的文物 " 中华第一龙 ":
不过,虽然大模型能增强图片的理解能力,但面对地点、时间、人名这类涉及照片拍摄的信息,它就无能为力了。
接下来,还需要结合照片本身的信息,解决 " 搜不准 " 的问题。
传统标签式搜索,需要精准到具体日期(年月日)和拍摄经纬度等照片拍摄数据,但用户输入的搜索词往往比较模糊。
为此,团队基于语义理解实现了组合查询,也就是用 AI 将输入文本和照片拍摄数据进行对应,相当于做了个翻译。例如输入 " 前年 ",语义理解就会自动提供 2021 年拍摄的所有照片。
甚至更精细的某个具体地名,如 " 西单 " 也没问题,还能将搜索范围精准到 " 照片 ",筛掉不想搜的资料:
准确度被解决后,就是这类智能搜索 " 搜不快 "、成本高的问题了。
毕竟,光是给已有图片建立索引就能让手机算力爆炸,更别提还有新增图片后重建索引、查询期间使用大模型的成本。
因此在索引上,团队设计了一套端云融合的语义检索系统。首先用云端算力进行向量计算,再用终端设备部署本地索引并检索,这样既能降低终端计算量,又确保了搜索的速度;
为了进一步降低终端耗电量,团队还对索引格式进行了压缩优化,确保搜索时搜的是图片中最 " 精华 " 的数据。
在算力上,团队还开发了一套统一管理 CPU、GPU 等异构资源的调度系统,充分利用 " 闲置 " 资源来计算云盘上的数据。
这样一来,即使你的网盘中珍藏了10 万张照片,搜索用时也在毫秒级——不到 1 秒就能找到想要的影像。
解决了这三个问题,最后就是 " 锦上添花 ",让搜索方式更加多样化了。
例如,网盘团队还引入了以图搜图、OCR 和视频检索等 AI 技术。
以图搜图可以直接上传图片,通过对比照片内容,来查找网盘内或是全网的相似图片:
甚至还能连接百度百科:
OCR 识别则可以通过 AI 识别图片中的信息和知识,即使是标点符号很狂乱的图片也 OK:
至于视频检索技术,则是通过 AI 算法,先快速筛选出最能代表视频的一张封面图,以加速视频搜索。
据了解,图搜功能在百度网盘已经覆盖千万级用户,一年累计图片搜索服务超过 2.5 亿次。即使在如此大的数据量下,百度网盘始终将用户数据安全及隐私保护放在首位。
以存储安全为例,百度网盘依托百度云计算(阳泉)中心,数据可靠性高达 99.9999999999%(12 个 9),极大提升了用户数据稳定性和可靠性。同时,也持续通过三项 ISO 安全认证的年度审核,全方位保障每位用户的数据安全。
总结来看,百度网盘正是通过包括大模型等前沿技术来实现了核心功能的 " 进化 ",从而在一众相似 APP 中脱颖而出。
但为何大模型率先引发变革的领網域,会是百度网盘这样的 APP?
大模型正在重写所有应用
其实不止是百度网盘,市面上已经有不少应用开始吸纳大模型这样的新技术。
但无论从产品技术、行业,还是百度自身来看,网盘都必须是率先发力大模型的一个 " 立足点 "。
从产品本身来看,网盘作为一个管理海量数据的在线存储数据库,必然和 Excel 等数据处理軟體一样,面临着更智能的互動方式需求。
正如一句话自动做图成为 Excel 的刚需一样,一句话 " 搜图 " 也必然成为用户使用数据库的刚需。
大模型的出现,直接在文本和图片之间架设了一座桥梁,使得网盘不再只是一个 " 硬碟 ",而真正成为了用户的 " 第二大腦 "。
从行业发展趋势来看,搜索本身也会成为大模型最先落地的领網域。
包括谷歌 AI snapshot 和百度 "AI 伙伴 " 在内,国内外在线搜索引擎都已经迅速引入大模型能力。
但除了搜索外部知识以外,无论是网盘这样的内部数据库搜索、还是移动端本机搜索,对于智能数据搜索同样有着极大需求。谁能率先将智能搜索技术引入产品,谁就能率先改善用户体验、吸引更多人使用产品。
最后从百度本身来看,在大模型最初火热之时,CEO 李彦宏就留下过名言:
要用大模型把所有应用重做一遍。
而网盘 APP,正是百度最先拿出来、最有竞争力的大模型产品之一,其所变革的功能也不仅仅停留在智能搜索层面。
换而言之,智能搜图、搜视频,还只是百度网盘变革的开始。如今在大模型加持下,网盘具备的 AI 和数据处理能力被彻底激发出来,彻底成为用户的智能助理。
它以大模型为核心大腦,通过调用知识、AI 模型和 API 们,能快速实现个人知识管理,马上还将实现多模态创作和多设备互联互通——
个人知识管理:包括搜索在内,对网盘数据进行全方位智能管理。如对英文财报进行快速总结、依据檔案中的资料回答问题、与用户互动等。
多模态创作:网盘内的图文视频内容,都已经能用 AI 实现再创作。如图片自动转视频、视频字幕自动转文本等。
多设备互联互通:基于 IoT,迅速将网盘内容在多个智能设备上互联互通,传输檔案非常方便。
这个智能助理,正是网盘前不久开启内测的 " 云一朵 ",有了它,找图、摘要、翻译等能力,都是一句话的事儿。
从智能搜索到百度网盘 " 云一朵 ",被大模型 " 重写 " 的百度网盘,已经率先走在了行业变革的前列。
感兴趣的童鞋可以去体验下啦 ~
参考链接:
https://mp.weixin.qq.com/s/D1miYkH1C6MstJsqx6XwXQ
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>