今天小編分享的科技經驗:百度不做Sora的理由,李彥宏講清楚了,歡迎閲讀。
文|周鑫雨
編輯|蘇建勳
2024 年 11 月 12 日舉辦的百度世界大會上,探讨 " 什麼是有價值的 AI 應用 " 成了主題。
百度集團創始人、董事長兼 CEO 李彥宏提到,将大會主題定為 " 應用來了 ",代表百度對于當前大模型和生成式人工智能時代的認知和判斷。
△文心大模型的日均調用量變化。
目前,文心大模型的日均調用量已經超過 15 億。李彥宏認為,如果文心大模型調用量一年能漲 10 倍,意味着市場需求确實存在。他提到,事實上,文心的調用量,在半年内的增長就接近 10 倍。
在會上,李彥宏提到了幾個共識:
首先,檢索增強(RAG)成為了行業共識,因為消除 " 幻覺 ",是模型行業落地的必須。李彥宏認為,過去 24 個月,大模型的最大變化是基本消除了 " 幻覺 "。
其次,智能體是 AI 應用最主流的形态,是 AI 原生時代内容、信息和服務的新載體。
" 智能體 ",無疑是世界大會上出現最高頻的術語。李彥宏将智能體比作 PC 時代的網站和移動時代的自媒體,區别在于,智能體更像人、更智能。
他提到了智能體的 4 個應用方向:公司類(如銷售客服)、角色類(如數字人直播)、工具類(如行業報告智能生成)、行業類。
技術的商業價值,也是李彥宏在發言中反復提起的主題。
比如,他認為 iRAG 的商業價值在于無幻覺、超真實、沒成本、立即可取。
△李彥宏發言
具體到 0 代碼開發工具 " 秒哒 " 的發布,李彥宏認為產品價值在于實現了生產力的無限擴張。用他的話來形容,這是 " 一個前所未有的只靠想法就能賺錢的時代 "。
在產業落地層面,李彥宏提到,大模型帶給行業的價值增量,體現在兩個層面:降本和增效。
目前,百度智能雲千帆大模型平台已經精調了 3.3 萬個模型,開發了 77 萬個企業應用,一半以上的央國企都是千帆的用户。
文庫和網盤融合了
在 2024 年 9 月的架構調整中,百度網盤回歸了 MEG,被劃分到了文庫 BU ——這也為兩個内容工具型應用的生态打通,埋下了伏筆。
百度副總裁、百度文庫兼百度網盤負責人王穎看來,以往文庫和網盤的用户具有以下兩個痛點:
一方面,不同形式、品類、格式的素材,無法在同一個平台上編輯操作,也無法生成任何形式、格式的内容;
另一方面,文庫中的公網域知識,和網盤中的私網域知識,是分開存儲的,無法協同形成完整的知識。
百度文庫上線的 " 自由畫布 " 功能,就成了打通文庫和網盤内容的橋梁。在李彥宏看來,自由畫布本質上就是一個工具類智能體。
就像一個智能白板,用户能夠通過點選、對話、框選,自由選擇和組合文庫和網盤上需要操作的内容。
基于背後的 MoE(混合專家模型)架構和多模态模型,自由畫布可以支持文字、影像、視頻等檔案的跨模态處理,最後也能生成圖文等跨模态内容。
而這些經自由畫布生成的多模态内容,适配的是微信朋友圈、小紅書的圖 + 文、視頻 + 文内容生态,也能生成帶圖表的研報等專業領網域内容。
△自由畫布根據要求生成了孫悟空來現代探險的小説、漫畫和視頻。
在 AI 工具型產品苦尋變現模式的當下,王穎卻認為,網盤和文庫的商業模式天生與大模型產品非常匹配。
她告訴《智能湧現》,文庫和網盤的收費模式,本質上是和用户分潤,產品通過給用户帶來價值、幫他們掙到錢,來提高用户的留存率和付費率。
"AI 能力能夠拓展產品功能的邊界,組合出來的產品變得更多,給用户帶來更多的權益,也會讓付費轉化率變高。" 王穎對《智能湧現》表示。
做 Sora 之前,先解決 " 幻覺 "
即便李彥宏提到,目前文字和 RAG(檢索增強)技術的結合已有成效,但他也指出,影像和 RAG 技術的結合還遠遠不夠。
"多模态模型目前沒有大規模應用,是由于幻覺問題還沒有解決。" 李彥宏在發言中指出。
這一認知,也決定了百度面對 Sora 的态度。李彥宏提到,在 Sora 出現時,百度的決策不是跟進,而是着手解決多模态的幻覺問題。
在會上,百度發布了 iRAG,一項基于檢索增強的文生圖技術。用李彥宏的話來説,iRAG 可以去除生成影像的 " 機器味 "。
△基于 iRAG 生成的圖片。
百度 CTO 王海峰在會上介紹了 iRAG 實現可控生圖的技術鏈路:
首先,大模型對用户的需求進行分析理解,自動規劃精确或者泛化的方案,比如對哪些實體進行增強;
接着,在增強階段,對需要增強的實體進行檢索,并且選擇對應的參考;
最後,在生成階段,百度自研了多模态可控生圖技術。一方面,通過局部注意力計算,大模型能夠在保持實體特征不變的情況下,實現影像的高泛化生成;另一方面,通過整體注意力計算,實現影像的高精确生成。
小度做了副 AI 眼鏡
2023 年換上大模型 " 大腦 " 的小度,這次推出的不再是音箱,而是百度的第一副眼鏡:小度 AI 眼鏡。
△小度 AI 眼鏡。
在硬體層面,這幅眼鏡自重僅 45g,低于行業平均重量 49g。為了提高成像效果,眼鏡搭載了 1600 萬像素超廣角鏡頭和 AI 防抖算法;為了提高聲音識别準确率、降低漏音,眼鏡采用了四麥陣列和開放式防漏音揚聲器設計。
在續航能力上,小度 AI 眼鏡用 30min 就能充滿電,實現 56 小時待機,超 5 小時連續聆聽。這三個指标均超過了行業标杆水平。
将小度 AI 眼鏡與普通眼鏡進行區别的,還是在 "AI" 上。
基于文心大模型和 DuerOS AI 原生作業系統,小度 AI 能夠實現第一視角拍攝、邊走邊問、識物百科、視聽翻譯、智能備忘、歌單等功能。
據百度集團副總裁、小度科技 CEO 李瑩介紹,小度 AI 眼鏡将在 2025 年上半年上市。
一個 0 代碼開發工具,就是一支智能體團隊
會上,百度還官宣了 " 秒哒 ",一個将在 2025 年 Q1 上線的 0 代碼應用開發平台。
相較于其他的 0 代碼開發平台,秒哒的特色是,應用的開發過程,由多個多智能體進行協作。
△ " 秒哒 "。
比如,在網頁制作過程中,網頁的代碼編寫和部署由程式員智能體完成,網頁中的文案由寫作智能體完成,文案中最新的資料由檢索機器人上網查詢,其中的配圖又由擅長生圖的智能體實現。
最後,負責質檢的智能體,還會利用反思能力,運行測試代碼,發現其中的 bug,并與程式員智能體進行配合修改。
多智能體協作,不僅應用在了針對小白開發者的 " 秒哒 " 上,還運用在了針對專業程式員的文心快碼 Comate 上。
王海峰介紹,Comate 已經迭代到了 3.0 版本。在開發全流程中,Comate 3.0 中的不同智能體可以實現自動代碼質檢、代碼補全等功能,目的是提高程式員的工作質量和效率,讓其把更多精力投入到探索和創新。
歡迎交流!