今天小編分享的科技經驗:AI進化受阻:搜索引擎仍未等到舉杯時刻,歡迎閲讀。
文 | 逐浪
生活中,越來越難找到打開搜索引擎的理由了。
吃飯有點評軟體,出行有導航地圖,看新聞有資訊 APP,購物有網購平台,聊天有社交媒體。越來越多搜索行為正從傳統搜索框轉移向一個個獨立的 APP。
傳統搜索引擎的優勢蕩然無存,處境尴尬。而 AI 浪潮的來臨,讓傳統搜索有了新的進化方向。
OpenAI 正式上線 ChatGPT 的實時搜索功能;谷歌宣布其 " 雙子座 "AI 模型将整合谷歌搜索功能;百度的 AI 智能回答,對文心大模型日均調用量超 6 億次。
一場 AI 時代的搜索新 " 戰事 " 正在上演,但 AI 搜索能否在用户生活中,提供足夠 " 必要 " 的價值,仍是一個值得商榷的問題。
被抛棄的傳統搜索引擎
一直以來,百度都長時間占據着中國互聯網搜索領網域的主導者位置。但随着用户搜索行為的多元化,傳統搜索引擎的用户正在逐漸流失。
年輕人們在微博搜明星動态、熱點新聞,在抖音和快手消耗瑣碎時間,在小紅書尋找經驗攻略。
今年 6 月,釘釘總裁葉軍曾在一場企業家論壇上談到搜索變革,他表示,搜索場景已經被變革掉了,百度也得馬上跟進,如果再不跟進,大家也不會用百度了。
搜索的前提,是平台有足夠的内容,滿足用户的信息需求。PC 時代,所有内容通過網頁展示,傳統搜索引擎依賴爬蟲技術,抓取互聯網上的網頁,然後進行清洗和排序。當用户輸入查詢的詞條後,搜索引擎會根據其算法對網頁進行排序,并将結果展示給用户。爬蟲抓取的信息數量越多,質量越好,傳統搜索引擎的體驗就越高。
而在移動互聯網時代,互聯網入口變為手機上一個個 APP,各 APP 廠商不願意再将左右生死的流量權,交給搜索引擎,便高築牆,深挖溝,将爬蟲擋在門外,并加強運營機制,将優質内容、獨家内容留在門内。于是,移動互聯網時代,各 APP 内容孤島化嚴重,信息從此不再 " 互聯 "。
流量的走向,重塑着新的互聯網格局。但傳統搜索處境下滑的同時,各獨立 APP 的搜索量與日俱增。
小紅書有将近 70% 的月活用户有搜索行為,1/3 的月活用户打開小紅書的第一件事就是直奔搜索;2023 年,抖音生活服務搜索 GMV 增長 254%,商品搜索 GMV 增長 143.8%;2024 年第二季度,使用快手搜索的月活躍用户近 5 億,同時單日搜索次數同比增長超 20%。更不用説微博的熱搜,憑借搜索,締造了一個又一個頂流話題。
就目前而言,傳統搜索引擎已經落後于時代,其本質原因,在于搜索引擎并不生產内容,只是内容的搬運工,而搜索内容的需求已經被内容方滿足。
生成式 AI 的誕生,給了傳統搜索引擎更沉重一擊,人們不再需要在搜索結果中,尋找所需信息,AI 已可以通過自然對話方式,代替思考,提供答案。
人們直接跳過 " 搜索 ",直達信息的彼岸。
之于搜索引擎,這是鶴頂紅,卻也是回魂丹。受威脅最大的傳統搜索引擎,成為生成式 AI 最忠誠的擁趸。
2023 年初,微軟宣布與 OpenAI 合作,推出了由 AI 驅動的 Bing 搜索引擎和 Edge 浏覽器。
同年 5 月,谷歌推出由生成式 AI 驅動的搜索引擎。谷歌稱,這是谷歌搜索引擎多年來最大規模的一次革新。
2023 年 8 月,昆侖萬維推出了國内第一款 AI 搜索引擎,2 個月後,百度也将旗下的簡單搜索更新為 AI 互動式搜索引擎,在搜索頁面内置文心一言大模型技術。
今年 6 月,360 公司正式發布了 "360AI 搜索 " 和 "360AI 浏覽器 ";同一個月,知乎發布 AI 搜索產品 " 知乎直答 ";7 月,誇克更新了 " 超級搜索框 ",推出以 AI 搜索為中心的一站式 AI 服務。
行業出現了 " 無 AI,不搜索 " 的趨勢,并且各大廠商為 AI 搜索賦予重任。
生成式 AI,正在生成傳統搜索的未來。
AI 搜索難當大任
AI 搜索引擎與傳統搜索引擎有着顯著的區别。
傳統搜索引擎像一個圖書館的目錄卡,用户需要提供書的具體書名或作者,才能找到書的位置。AI 搜索引擎更像一個圖書管理員,用户只需要告訴它大概的信息,它就能找到相關的書,并總結書中的主要内容。
而且,AI 搜索還不局限于文字,能理解和索引視頻、圖片、語音等内容。還能實現了 AI 寫作、AI 檔案總結等操作。
但 AI 搜索的發展似乎并不順利。以上一切全新體驗的前提,在于搜索的結果,務必精準。
谷歌 AI 搜索上線不久後就鬧出了不少笑話。很多用户都反映,AI 搜索在 " 胡言亂語 "。
一位用户向谷歌 AI 搜索提問 " 我每天應該吃多少塊石頭 ",得到的回答是 " 根據加州大學伯克利分校地質學家的説法,人們每天應該至少吃一塊小石頭 "。
在今年的百度世界 2024 大會上,百度發布檢索增強的文生圖技術 iRAG,可結合百度搜索的圖片資源,消除大模型,生成各種超真實的圖片," 去除了機器味兒 "。
而在媒體復刻發布會所展示的 " 愛因斯坦與天壇合影 " 指令時,大模型仍然出現錯誤幻覺:原本三層護欄,變成了四層甚至五層。
就目前而言,AI 搜索生成答案的準确性和可靠性依舊難以保證、容易出現事實錯誤,且生成的内容缺乏深度、無法提供有效的溯源。
諾貝爾經濟學獎得主保羅 · 克魯格曼曾在社交媒體上批評了當前的人工智能,稱它比沒用還糟糕," 有很多關于谷歌和其他搜索引擎退化的消息。這是真的,讓我的工作變得困難 "。
同時,AI 的濫用還在加劇互聯網信息的混亂,產生很多無效信息、虛假信息,混淆了正常搜索的結果。
今年 1 月,江西南昌的一家 MCN 利用 AI 工具日產 7000 篇文章。文章内容真假混雜,甚至引發了網傳西安有巨大爆炸聲的謠言。
温州公安最近也抓捕了一位網絡作者。該作者利用 AI 工具批量改寫網絡文章,發布到信息平台從而獲得文章收益,最終造成了諸多不良的社會影響。
伴随着 AI 工具的普及,AI 制造的無用、虛假信息的數量也越來越多。
清華大學新聞學院的報告稱,近一年來,經濟與企業類 AI 謠言,增速高達 99.91%。谷歌研究人員也發現生成式 AI 造成的虛假信息正在互聯網上泛濫成災。
雖然,目前 AI 引發的内容風險還沒有上升到 " 威脅生存 " 的地步,但按照 AI 的發展趨勢來看,這種偽造或篡改的信息會越來越多。
最終導致互聯網的信息更加混亂,使得真實與虛假之間的界限模糊。
甚至 AI 自己,也将在越發低質的語料庫中停止進化與生長。
信息荒漠時代
随着 AI 生成的錯誤和無意義的信息會不斷累積,互聯網的錯誤、雜訊占比會逐步增加。
清華大學新聞學院新媒體研究中心主任、跨學科知名學者沈陽説,AI 生成的内容急劇增加,大量自媒體文章的内容由 AI 自動生成,而 AI 幻覺產生的錯誤就夾雜在這些文章當中,這也會造成整個互聯網的内容質量進一步下降,導致數據質量的整體下降。這種現象被稱為 " 數據退化 "。
AI 的訓練和學習需要大量的網絡信息,但大量虛假和無意義的信息只會讓 AI 陷入混亂,產生錯誤觀念。
不止如此,AI 除了要面臨劣質内容的侵害,還面臨優質底層信息的短缺。
研究公司 Epoch AI 表示,到 2028 年,文字資料将會被消耗殆盡。而這些數據是人類在在過去幾個世紀裏,創作的大量文字、視頻。
也有人試圖用 AI 生成的信息訓練 AI,但結果并不美好。國外的科學家發現,如果 AI 只學習其他 AI 生成的内容,那麼經過幾代訓練後,AI 将輸出無意義的垃圾信息。
他們把這種現象稱為 " 模型崩潰 "。
當前正處于信息大爆炸時代,我們所有人都被大量的信息所包圍,但是對于 AI 而言,這是一個數據匮乏的時代。
對 AI 而言,誰能幫助 AI 擺脱信息匮乏的窘相,誰就掌握了 AI 發展的未來。為此,OpenAI、Anthropic、百度等公司都在積極開發更優質的合成數據,以此克服挑戰。但大多數學者都持悲觀态度。
今年 11 月,有外媒報道,OpenAI 下一代旗艦模型 " 獵户座 "(Orion)的性能提升幅度,小于 GPT-4 相對 GPT-3 的提升。
其創始人奧特曼曾表示,可能不會把新模型命名為 GPT-5。
多位專家勸説 AI 公司停止訓練大模型," 如果當前趨勢持續,人工智能很快就會耗盡其可用的訓練數據。面對這種情況,AI 公司可以選擇停止追求規模更大、更復雜的模型。"
AI 是當前互聯網進步的主要動力之一,尤其是對搜索引擎而言,誰能突破 AI 的限制,誰就掌握了搜索市場的未來。
只是,這杯慶功酒遙遙無期。