今天小編分享的科學經驗:網盤用上大模型後「真香」!壓箱底黑照3秒找到,親朋好友都不淡定了,歡迎閱讀。
想不到,有了 AI 加持,我也有在我司鲨瘋的一天!
同事的壓箱底黑照,被我 3 秒鍾就翻了出來,光速做成表情包先發制人。
喏,只需要在網盤的搜索框裡輸入 " 大笑的男人 ",立馬就能檢索到相關影像。
然後選中想要 " 攻擊 " 的對象、點擊編輯,就能一鍵加文字變表情包。
整個過程相當絲滑,我圖都做完了,同事那還在找圖呢(doge)。
而且這個搜索還能直接理解 "什麼是表情包",可以一鍵找到之前做好的圖。
咱就是說,在堆滿陳年老照片和資料的網盤裡用上精準搜索,鬥圖大王舍我其誰。
除了照片,它甚至還能直接搜同事的視頻、或識别表情包中的文字,搜索靈活度很高。
所以,這個功能究竟在哪裡開啟,相比傳統相冊搜索又有啥不一樣的地方?
典藏表情包搜索 " 神器 "
首先,在百度網盤裡啟用這個智能搜索功能。
打開網盤搜索框,輸入 "高級圖片搜索",就會顯示一個功能入口,進入後點擊 " 立即體驗 " 并等數據更新完成,系統就會發送通知,可以上手開玩了 ~
啟用高級圖片搜索功能後,在網盤主頁的搜索框裡就能一鍵搜圖,不用再特意進入某個工具中。
怎麼搜?" 腦子裡想啥就搜啥 "。
以搜索單個詞匯為例,比如 " 比耶 " 和 " 擠眉弄眼 " 這種模糊的表達,智能搜索就秒懂:
像 " 修狗 " 這樣的網絡熱詞,也在它的掌握之中。
甚至還進化出了自己的" 偏見 ",比如和 " 發布會 " 關聯的往往是 "PPT"(doge):
不止是單個復雜詞匯或形容詞,搜圖時還可以直接說一整句描述,甚至加多個限定詞。
同時,随着輸入的細節增加,它的搜索結果還會實時調整。
比如只輸入 " 睡覺的 ",可以看到系統找到的第一張照片,是一張貓貓躺着的表情包。
但随着關鍵詞完善到 " 睡覺的人" 以後,這張貓片就馬上被系統篩了出去。
除了準确把握圖片精髓外,這個智能搜索還能識别圖片中的文字,搜索結果也很全面。
比如搜 " 繃不住了 ",它不僅能給出圖文完全一致的表情包,還會放出其他相似圖片:
搜索範圍上,不止是找圖,這個功能就連視頻也能搜。
總之,網盤的智慧搜索新功能,讓找照片、視頻等檔案不再是個費力的 " 提示詞工程 "。
要想搜到自己的照片,只用和網盤 " 聊聊天 " 就行,它就能像人一樣準确 get 你要找的那張照片。
所以,這個功能究竟是怎麼實現的?我們扒了扒背後的技術原理,發現還真沒那麼簡單。
背後果然用上了大模型
智慧搜索,本質上有點像一個自帶圖片 + 視頻智能查找功能的 " 私人定制版 " 網盤搜索引擎。
但為了實現這個功能,百度網盤團隊甚至連大模型都用上了,核心目的,在于解決傳統圖片搜索的四大問題——
搜不到、搜不準、搜不快、搜索方式單一。
首先要解決的、也是最大的難點之一,是 " 搜不到 " 的問題。
傳統按标籤搜索的相冊,内置搜索引擎沒有真正将圖片和文字之間的 " 含義 " 關聯起來,換言之就是 " 文不對圖 "。
△普通手機的标籤式搜索
為了解決這一問題,團隊選用了百度文心的多模态大模型VIMER-ViLP,并用海量圖片和文本數據對它進行了訓練,來實現基于向量的語義搜索。
這類方法的核心原理,是将文本和影像的特征向量映射到同一個語義向量空間,向量之間距離越近,相似度就越高,同時也能避免語義丢失,降低 " 搜不到 " 的概率。
相比 CLIP,VIMER-ViLP 在訓練時采用的中文數據更多,因此搜特殊中文名詞也會更準确。例如,在博物館内拍攝的文物 " 中華第一龍 ":
不過,雖然大模型能增強圖片的理解能力,但面對地點、時間、人名這類涉及照片拍攝的信息,它就無能為力了。
接下來,還需要結合照片本身的信息,解決 " 搜不準 " 的問題。
傳統标籤式搜索,需要精準到具體日期(年月日)和拍攝經緯度等照片拍攝數據,但用戶輸入的搜索詞往往比較模糊。
為此,團隊基于語義理解實現了組合查詢,也就是用 AI 将輸入文本和照片拍攝數據進行對應,相當于做了個翻譯。例如輸入 " 前年 ",語義理解就會自動提供 2021 年拍攝的所有照片。
甚至更精細的某個具體地名,如 " 西單 " 也沒問題,還能将搜索範圍精準到 " 照片 ",篩掉不想搜的資料:
準确度被解決後,就是這類智能搜索 " 搜不快 "、成本高的問題了。
畢竟,光是給已有圖片建立索引就能讓手機算力爆炸,更别提還有新增圖片後重建索引、查詢期間使用大模型的成本。
因此在索引上,團隊設計了一套端雲融合的語義檢索系統。首先用雲端算力進行向量計算,再用終端設備部署本地索引并檢索,這樣既能降低終端計算量,又确保了搜索的速度;
為了進一步降低終端耗電量,團隊還對索引格式進行了壓縮優化,确保搜索時搜的是圖片中最 " 精華 " 的數據。
在算力上,團隊還開發了一套統一管理 CPU、GPU 等異構資源的調度系統,充分利用 " 閒置 " 資源來計算雲盤上的數據。
這樣一來,即使你的網盤中珍藏了10 萬張照片,搜索用時也在毫秒級——不到 1 秒就能找到想要的影像。
解決了這三個問題,最後就是 " 錦上添花 ",讓搜索方式更加多樣化了。
例如,網盤團隊還引入了以圖搜圖、OCR 和視頻檢索等 AI 技術。
以圖搜圖可以直接上傳圖片,通過對比照片内容,來查找網盤内或是全網的相似圖片:
甚至還能連接百度百科:
OCR 識别則可以通過 AI 識别圖片中的信息和知識,即使是标點符号很狂亂的圖片也 OK:
至于視頻檢索技術,則是通過 AI 算法,先快速篩選出最能代表視頻的一張封面圖,以加速視頻搜索。
據了解,圖搜功能在百度網盤已經覆蓋千萬級用戶,一年累計圖片搜索服務超過 2.5 億次。即使在如此大的數據量下,百度網盤始終将用戶數據安全及隐私保護放在首位。
以存儲安全為例,百度網盤依托百度雲計算(陽泉)中心,數據可靠性高達 99.9999999999%(12 個 9),極大提升了用戶數據穩定性和可靠性。同時,也持續通過三項 ISO 安全認證的年度審核,全方位保障每位用戶的數據安全。
總結來看,百度網盤正是通過包括大模型等前沿技術來實現了核心功能的 " 進化 ",從而在一眾相似 APP 中脫穎而出。
但為何大模型率先引發變革的領網域,會是百度網盤這樣的 APP?
大模型正在重寫所有應用
其實不止是百度網盤,市面上已經有不少應用開始吸納大模型這樣的新技術。
但無論從產品技術、行業,還是百度自身來看,網盤都必須是率先發力大模型的一個 " 立足點 "。
從產品本身來看,網盤作為一個管理海量數據的在線存儲數據庫,必然和 Excel 等數據處理軟體一樣,面臨着更智能的互動方式需求。
正如一句話自動做圖成為 Excel 的剛需一樣,一句話 " 搜圖 " 也必然成為用戶使用數據庫的剛需。
大模型的出現,直接在文本和圖片之間架設了一座橋梁,使得網盤不再只是一個 " 硬碟 ",而真正成為了用戶的 " 第二大腦 "。
從行業發展趨勢來看,搜索本身也會成為大模型最先落地的領網域。
包括谷歌 AI snapshot 和百度 "AI 夥伴 " 在内,國内外在線搜索引擎都已經迅速引入大模型能力。
但除了搜索外部知識以外,無論是網盤這樣的内部數據庫搜索、還是移動端本機搜索,對于智能數據搜索同樣有着極大需求。誰能率先将智能搜索技術引入產品,誰就能率先改善用戶體驗、吸引更多人使用產品。
最後從百度本身來看,在大模型最初火熱之時,CEO 李彥宏就留下過名言:
要用大模型把所有應用重做一遍。
而網盤 APP,正是百度最先拿出來、最有競争力的大模型產品之一,其所變革的功能也不僅僅停留在智能搜索層面。
換而言之,智能搜圖、搜視頻,還只是百度網盤變革的開始。如今在大模型加持下,網盤具備的 AI 和數據處理能力被徹底激發出來,徹底成為用戶的智能助理。
它以大模型為核心大腦,通過調用知識、AI 模型和 API 們,能快速實現個人知識管理,馬上還将實現多模态創作和多設備互聯互通——
個人知識管理:包括搜索在内,對網盤數據進行全方位智能管理。如對英文财報進行快速總結、依據檔案中的資料回答問題、與用戶互動等。
多模态創作:網盤内的圖文視頻内容,都已經能用 AI 實現再創作。如圖片自動轉視頻、視頻字幕自動轉文本等。
多設備互聯互通:基于 IoT,迅速将網盤内容在多個智能設備上互聯互通,傳輸檔案非常方便。
這個智能助理,正是網盤前不久開啟内測的 " 雲一朵 ",有了它,找圖、摘要、翻譯等能力,都是一句話的事兒。
從智能搜索到百度網盤 " 雲一朵 ",被大模型 " 重寫 " 的百度網盤,已經率先走在了行業變革的前列。
感興趣的童鞋可以去體驗下啦 ~
參考鏈接:
https://mp.weixin.qq.com/s/D1miYkH1C6MstJsqx6XwXQ
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>