今天小編分享的财經經驗:B站的野望,百度的危機,歡迎閲讀。
圖片來源 @視覺中國
文 | 表外表裏,作者 | 張冉冉、黑銀柯、周霄,編輯 | 付曉玲
" 未來的搜索形式會不斷地發生變化,但是它的市場規模之大,恐怕遠超很多人的想象。"
李彥宏 4 年前打出的子彈,時至今日,似乎擊中了百度自己。
近期(七月底)B 站投資者日上,管理層披露業務最新進展:"B 站在搜索這塊,有非常大的流量增長空間,今年 Q2 起,我們會增加搜索廣告的嘗試。"
而更早之前,3 月初 B 站開始陸續出現搜索廣告。比如搜索 " 遊戲 ",搜索結果中的第三個位置展示了遊戲廣告。
也就是説:B 站給出商業化可能的答案,正是視頻搜索。
實際上,這不是無源之水,也不是無本之末。行業趨勢便是如此,目前視頻平台的搜索趨勢都愈加明顯。抖快均在去年上線搜索廣告,Tiktok 也在今年 3 月放開搜索廣告。
對于後面的發展,普遍信心十足。如快手 2023Q1 電話會議也説道:搜索流量快速增長,搜索廣告轉化效率更高。
巧合的是,這都是最新一個季度發生的轉變。這顯然離不開過去半年 AIGC 的大熱——行業由 TensorFlow 時代,發展至 Transformer 時代
當下,技術進步的催化,或許打開了視頻搜索可能性。過去受制于視頻搜索技術、時間效率、成本(人工、硬體)等難題,正在不同程度的一一發生變化。
這自然會打破過去視頻行業的商業化天花板。
相比長視頻(缺乏有用性)、短視頻(純粹奶頭樂)的特征,B 站獨特的中視頻、泛知識、通俗有趣等特征,匹配搜索行為的特定需求,會產生更好的化合效應。
在 AIGC 時代,視頻搜索或将成就 B 站的 " 野望 ",同時,引發百度的 " 危機 "。
AI 實現 " 看視頻説話 ",視頻平台就能坐上金礦
很長的互聯網發展周期裏,視頻搜索都被證明是一條很困難的賽道。
難就難在,視頻搜索的整個搜索流程裏(輸入關鍵詞→解析關鍵詞→召回→結果呈現),召回和結果呈現環節,都存在很大挑戰。
以召回環節來説,要實現這點——根據輸入的關鍵詞,與數據庫内容進行匹配,檢索出最符合的視頻——不僅要求平台擁有豐富的視頻内容池,還要有搜索的精準度。
内容豐富度方面,視頻内容因為創作門檻高、時間短等原因,在深度與厚度沉澱上有限。
搜索精準度上,則存在更大的挑戰。舉個例子,在谷歌上搜索 " 邊牧智商 ",呈現的第一個搜索文章,内容裏明确有邊牧如何高智商的解釋字眼。
但如果在 YouTube 上有一個視頻,從能聽懂人話、完成指令等各個動态維度,更直觀展示了邊牧智商很高,可标題、字幕等卻沒有提及邊牧智商等文字标籤,這個視頻就很難被搜到。
之所以會這樣,是因為視頻融合了文字、圖片等多模态信息,相比純文章,内容理解要難得多——很難将視頻裏的狗子,識别成為邊牧,更難把邊牧的動作,和高智商挂鈎。
事實上,2017 年 Transformer 架構被提出之後,多模态模型已不斷進化。
比如,先是谷歌由此架構提出了實現影像分類的 ViT 模型,将 Transformer 帶到了視覺領網域,但該模型仍然只是單影像模态。
在其之後,OpenAI 提出了 CLIP 模型,可以基于文本對圖片進行分類,包括影像處理和文本處理兩方面的内容,打破了過去二者泾渭分明的界限,實現多模态。
而且,CLIP 在 GPT-3 的啓發下,可以直接全網數據爬蟲,一圖一文匹配,稍微做篩選即可,幾乎不需要人工标注,實現了更高的成本和時間效率。
要知道,過去的視覺模型都是基于人工标注的數據集訓練,而一秒視頻至少有 24 幀,短短一分鍾的視頻就能夠提取出 1440 張影像,把其應用到視頻識别上,成本極高。
但盡管 CLIP 在識别常見物體上表現良好,卻無法處理更抽象的任務,比如輸出圖片中物體的個數等需要一定邏輯思維推理的任務。
也就是説,此時的影像識别,更像人的視網膜原理。但人不光是眼睛看到了當前的情況,大腦還得對情況有相應的反應。
這需要算法具備像大腦一樣的語義理解能力,才能夠全面理解視頻,更好地支撐關鍵詞的召回匹配和排序。
而幾個月前發布的 GPT-4,讓這一問題有了解決的迹象。
比如在對話中輸入下圖,GPT-4 的回答是 " 這是一棵生長在冰凍湖上的仙人掌,它周圍長滿了巨大的冰晶,遠處還有白雪覆蓋的山峰 "。
繼續問 " 這種景象在現實世界中是否常見 ",其解釋很少有這樣的景象,并給出相應原因。
也就是説,最新的 GPT 4 已經具備了 " 看圖説話 " 的能力——不僅做了物體的識别,還可以做很多語義的解讀。
以此後推,随着 AI 模型加速迭代," 看視頻説話 " 也指日可待。當然,反過來也能夠實現文本生成視頻,降低制作視頻的門檻。
但 GPT-4 這個能力目前只在宣布階段,還不存在一個完整的多模态大模型,需要一定時間的探索。
況且,多模态大模型要以影像和視頻等作為訓練數據,檔案大小遠大于語言類模型,算力成本極高。
比如,百度的文心一言雖然展示了視頻生成能力,但因成本較高,現階段還未對所有用户開放。
而在結果呈現環節,視頻也不能像文章一樣快速浏覽,ctrl+F 查找,一個十分鍾的視頻,可能到後半段才有你要的信息,再加上暫停、記錄,三十分鍾都搞不定。
但這個問題,國内已有音視頻大模型破解:将視頻信息歸納總結,想看哪一段,直接點擊章節,就可以跳轉到相應的時間段播放。
總的來説,随着視頻 AI 技術的應用,視頻搜索在核心的内容豐富度以及搜索精準度,都有望解決。
何況視頻本身比文本就更加直觀生動,更具吸引力——截止 2022 年 6 月,國内網民每天一半的網上娛樂時間都花在短視頻平台上。
種種利好疊加,到那時,視頻或能代替文本成為搜索的主流。當下在海外,這種苗頭已經出現。
Chowdhury 機構調研顯示,近 40% 的年輕人在尋找吃飯的地方時,會在 TikTok 進行,而不是谷歌搜索。
可以看到,海外年輕人平均每天都要沉浸在 TikTok 上近兩個小時。在這兩個小時内,但凡看到有趣的内容,自然觸發搜索行為。
這樣的情況,讓谷歌深感威脅。據透露,谷歌數百名員工被分配到一個被稱為 " 重要的搜索轉移 " 的項目中工作,該項目的内容是讓搜索結果顯示更多影像和視頻。
顯然,這對百度來説,也可能是未來會遇到的情況。
但 " 驚喜 ",遠不止此。
不同于文字,視頻能潤物細無聲地植入廣告,吸引用户點擊。最早上線視頻搜索廣告的 youtube 曾表示,視頻搜索廣告帶來的點擊次數比插播廣告,高出近五倍。
不止點擊率,廣告價格方面也是一樣。視頻平台本身在算法推薦上就具備優勢,再與搜索結合,廣告精準度提升,就有人買單。
總的來説,視頻搜索場景下,搜索廣告的幾大驅動因子——流量、加載率、點擊率、價格等都有了進一步提高的可能。
這樣一來,意味着一旦技術突破,視頻搜索可能會重構搜索廣告的生态與邏輯,視頻平台相當于坐上了金礦。
" 潑天富貴 " 終于輪到 B 站?
B 站 14 周年慶上(6 月召開),陳睿當着全國年輕人的面,向中長視頻 UP 主服軟稱," 要用更真實的播放分鍾數去替代播放次數,作為 B 站視頻的主要外顯數字。"
那麼,為何 B 站會口風大變呢?
其實,管理層可能不是在讨好中長視頻 UP 主們,而是要迎接自己的時代。
眾所周知,一直以來,抖快以沉浸式娛樂内容,在日活、用户時長上,壓了視頻号、B 站等以泛知識内容為主的平台一頭。
但視頻搜索場景下,兩者的處境截然相反。
YouTube 相關負責人曾提到:"YouTube 上,每周經由關鍵詞搜索而產生的視頻浏覽量有數十億次,許多風格偏實用的視頻正是通過這種方式被發現的。"
其所説的實用視頻正是 how to(如何 ...)類視頻—— Youtube 上每天有數以百萬計的搜索關鍵詞當中包含 "how to",用户花在 "how to" 類視頻的時間是 " 寵物和動物 " 的 10 倍。
原因在于:視頻搜索是有目的性的,偏知識類的内容,更符合搜索需求。
而這也是 B 站的舒适區,可以看到,截至今年 3 月份,B 站泛知識内容占比 41%," 學習網站 " 的名頭無意中越來越夯實。
如此就不難理解,為何 " 睿帝 " 低頭,調整激勵方式。
不過,内容優質只是一方面,視頻搜索效率高,還要能提取足夠多的關鍵詞。
這一點來看,同一關鍵詞分别在抖音、B 站搜索到的标題匯總顯示:抖快視頻标題很長,但大多數采用現成的 tag,或者 " 标題黨 " 類标題;
相比之下,B 站的标題簡單,可大多具備關鍵詞匯,也更加專業。
搜索内容呈現也是一樣,以 " 山東地震 " 為例,抖音搜索結果聚焦在 " 肯定要先跑出去呀 "、" 啊啊啊啊啊,地震了 " 等博主本人感受。
B 站搜索到的諸如 " 山東為何突然爆發地震?" 等知識科普,創作者更多運用 " 板塊運動 "" 斷裂帶 " 等專業詞匯講解。
也就是説,無論标題、内容,還是時長方面,中視頻比短視頻都更易提取關鍵詞,與視頻搜索更适配。
且短視頻平台的創作者想轉向做中長視頻,恐怕也有難度。可以看到,過去一年,不少千萬粉絲的抖音創作者入駐 B 站後,粉絲量表現均不佳。
此外,用户自己搜索所需下,優質的内容能夠獲得更長的生命周期。
仍以 youtube 為例,上述所説的 How to(如何 ...)類視頻生命周期極長,即使過去很長時間,依然能維持較高的熱度,甚至是逆襲式的消費曲線。
B 站自己也有這樣的暢想,2022Q4 電話會議曾提到:B 站上面有很多知識類内容,都有很好的歷史價值,幾年以後大家也都會去看它。ChatGPT 的搜索體驗,它可以把 B 站的内容積累的價值,更充分地發揮出來。
這樣一來,會激勵創作者產出更多優質内容,而不是像當下的 Story Mode 模式,不斷衝擊站内的中長視頻 UP 主基本盤。
有了更多的優質内容,就能夠擴大搜索流量池,廣告主聞利而來,創作者也能獲得更多收益,社區生态整個良性循環。
換言之,如果技術實現突破,相比可能讓 B 站陷入 " 死亡螺旋 " 的 Story Mode 模式,視頻搜索廣告才是良藥。
更何況除了拉動正循環,搜索場景下,平台還掌握着宏觀調控的權力。
如 YouTube,2020 年提升了 how-to 類内容和高商業化 KOL 分發權重,當年廣告營收達到 198 億美元,相比 2017 年翻了超過 3 倍。
B 站來説,可以将搜索流量分發至更多中腰部 up 主的推廣視頻中,一定程度上可以帶着 up 主 " 共同富裕 "。
小結
視頻搜索的藍圖,讓所有人垂涎。AI 大模型加持下,技術正在突破 ing,廣闊的商業化變現空間,隐隐招手。
而 B 戰尤甚,中視頻與視頻搜索更适配,這意味着盤活平台的創作者生态,促進新一輪的生态發展。
當然,預期總是美好的,但這一塊短中期落地方面,仍存在較大的挑戰。
比如,視頻訓練成本高極高,同時 AI 聯想能力并不可控,可能會導致不恰當關鍵詞投放,讓廣告主落入負面風險中。