今天小編分享的互聯網經驗:自由操作的AI畫布、超真實的AI生圖:誰在颠覆内容行業?,歡迎閱讀。
文 / 紀德
編輯 / 子夜
AI 與内容工具結合,早已不是新鮮事。
從漫畫、海報制作到影視等應用領網域,一系列 AI 產品崛起。大模型對于創作模式和生產方式的颠覆不斷發生,作家、自媒體人、電影人等多類型創作者,對此深有體會。
但當下 AI 產業仍缺乏一個足以激發需求的超級應用。為了讓技術落地,玩家不斷尋找着理想的落地場景,以百度、Open AI 為代表的企業,開始将 AI 大模型應用到一個可以自由操作的自由畫布中。
在百度世界 2024 大會上,該產品被命名為 " 自由畫布 ",首次正式亮相。介紹時,李彥宏特别強調,"因為自由畫布,每個人都可以成為漫畫家、短視頻導演。這不是期貨,而是立即可用的現貨,是真正服務于創造的新質生產力!"
與其他大模型的發展理念不同,百度用 AI 重塑自身業務時,采用了互相支撐、融合的開發模式,自由畫布便是文庫和網盤兩大業務聯合推出的產品。
從用戶體驗角度,自由畫布重塑了内容創作的底層邏輯。AI 生成對文字、圖片、音視頻内容的影響,往往體現在内容制作中一個個小的環節中,但自由畫布不僅容納了所有可以提升效率、激發創意的生產環節,還颠覆了内容創作的線性邏輯,讓内容的輸入、編輯和修改都變得更自由。
發布會上,李彥宏還提及了 AI 生圖的幻覺問題。近年來,AI 創作產品的内容生成質量有限,成為内容創作者及行業面臨的痛點。
李彥宏認為," 過去這 24 個月,AI 行業的最大變化是大模型基本消除了幻覺。" 其中,百度在今年初自研了檢索增強的文生圖技術 iRAG,能夠為用戶提供真實、準确性高、無模型幻覺的生成圖片。
無論是推出自由畫布,還是自研 iRAG 技術,百度代表的是數億用戶的高頻使用需求,但更值得關注的問題是:玩家使勁搞創新,廣大消費者又是否願意為之買單。
一張自由操作的 AI 畫布,
能否滿足數億創作者的所有想象?
近年來,一種全新、直觀、可視的用戶互動界面——自由畫布,颠覆了人們對工作方式的想象和體驗。
在國内,百度是搶先擁抱可視性畫布的先行者;在海外,Canvas 火爆,以 ChatGPT、OpenAI 為代表的玩家正在不斷完善體驗。
這個新玩意,究竟怎麼用?相比于一張普通畫布,自由畫布的特殊性在于,它可以适配作家、自媒體人、教師、白領等幾乎所有人群的工作需求,并通過 AI、大數據等技術,在 " 一拖一圈 " 之間,賦予工作方式的智能化。
在模拟小紅書博主撰寫旅遊攻略内容時,用戶可以借助百度自由畫布輕松完成内容的輸入:只需直接拖入素材,如文本、圖片或視頻等人們日常接觸的多達 100 多種格式的内容,都可以直接呈現在畫布上。
這種不受檔案類型限制的自由輸入方式,簡化了復雜繁瑣的格式轉換過程,極大程度上減少了時間成本。
完成内容輸入後,用戶則将進入編輯環節。當用戶提出撰寫文稿、設計排版或生成視頻等需求時,往往只需要圈中一塊内容,再按下對應的功能按鈕,就能完成一次高效、高質量的創作。
生成出一個大聖穿越到現代探險的故事
自由畫布的互動方式,自由而非線性,機動而非死板。大多用戶已經習慣了 AI 創作中略顯僵硬的批量生產,但自由畫布擁有高度的個性化編輯。
用戶修改内容時,瞬間變身一位 " 指揮家 ",對局部内容進行輕松選擇和調用,快速完成文案、圖片的微調,實現" 指哪用哪,指哪改哪 "。
大多數内容創作者日常面臨高頻次的修改工作、多輪的内容迭代,自由畫布帶來了更動感和自由的互動,增強了用戶的參與感和内容的個性化,從而使内容創作者可以得到獨一無二的作品。
自由畫布不僅在内容輸入和編輯環節,擁有強大的協同能力,對于内容分享的體驗,也極其重視。
無論是分享,還是查看和二次編輯,用戶可以僅通過一個鏈接完成。其中,二次編輯帶來的不同體驗尤為突出。
傳統的内容導出,一旦出錯無法更正,重新發布的代價高,但很多時候,用戶還會有再次編輯的需求,自由畫布的二次編輯解決了用戶的痛點。
數年以來,AI 技術對于内容創作領網域不斷產生影響,改進了現有產品或服務。百度自由畫布,利用新技術滿足了内容創作者對靈活、高效服務的需求,甚至讓每個人都能無門檻地涉足更多類型内容的制作中。
自由畫布,不僅颠覆了傳統的内容生產工具,也超越了現有的 AI 創作工具。
它是一個全新的生產力平台,通過将 Word、PPT、Excel 等常見的辦公工具,放到一張自由畫布上,其成為一個涵蓋 Office 全家桶 +Canvas 的產品,不僅打破用戶苦惱已久的孤島問題,也将改變用戶的日常工作流程。
AI 生圖進入 " 超真實 " 時代,
iRAG 究竟有多強?
在生成式 AI 時代,AIGC 的應用範圍,從文本、圖片延伸至視頻場景。工作過程中,一句話的輸入、一次滑鼠的點擊,就能完成一次創作。
然而,真正的挑戰在于,用戶越來越不習慣于那股 "AI 味 ",甚至是 AI 幻覺。
在大會上,李彥宏展示了一張北京天壇的生成照片——真正的天壇是 3 層建築,該開源模型卻生成了 4 層。
他提及,幻覺問題是大模型廣泛應用的最大限制之一," 要想基于大模型開發應用,消除幻覺是必須的,如果這個模型總是一本正經地胡說八道,就不會有人信你,就不會有應用。"
過去一段時間,用戶對 AI 工具的生成能力提出了更高需求,例如,更真誠走心的語言、更精細真實的圖片等。
而各個企業要做的就是,跨越技術的復雜性,提升用戶的滿意度。為了解決幻覺問題,今年初百度自研了 iRAG 技術,這是一種結合檢索和生成的技術方法,更好地提升了生成内容的可靠性和準确性。
例如,用戶在體驗文章的封面圖制作時,可能會在文心一言的輸入框中寫下以下需求:幫我畫一張馬斯克和一只迅猛龍在備份箱裡剝豆角。
用戶會發現,文心一言完美理解了提示詞,生成的影像沒有漏掉任何一個人物或物體的特征,臉部或手部等細節處呈現得足夠精細,還兼顧了圖片的構圖和審美。
文心一言 AI 生圖
市面上較為成熟的大模型,往往具有強大的文本理解能力。作為重要的選手之一,百度擁有國内最大的中文搜索引擎,以及全網最全的中文語料。
iRAG 技術成功實現自研的基礎,便是将百度搜索的億級中文語料、圖片資源,與強大的基礎模型能力相結合,避免了事實錯誤、推理失敗等 " 一眼假 " 問題,真正實現無幻覺、超真實。
用戶可以通過 iRAG 技術,生成特定物品、特定人物與任意背景結合的圖片,這提升了生成效果的多樣性,也激發了用戶發揮自身想象,通過合理組合人物、構架場景,創造出更豐富的 AI 生圖。
例如,用戶可以上傳保時捷帕拉梅拉的圖片,生成其在草原上行駛的畫面;生成一張比薩斜塔和自由女神像,同框出現在中心城區的照片;生成一張福建土樓出現在現代都市裡的圖等。
生成保時捷帕拉梅拉在草原上行駛的圖片
文生圖技術的持續迭代,為内容創作者和行業帶來了更多可能性。
當 iRAG 技術能夠突破數據要求和計算難度,產出令人滿意的文生圖,也就意味着,可以順利幫助内容創作者突破算力瓶頸,縮短内容制作周期。同樣的作品,在更短的時間内制造出來,且内容精良程度還會大幅提升。
同時,以更低的成本進行内容生產,也是 iRAG 為行業帶來的直觀影響。在部分環境,iRAG 技術可以将創作成本壓縮到幾乎為零。
" 比如在品牌宣傳場景,以前拍這樣一組海報動辄需要一二十萬,甚至大幾十萬,但是現在創作的成本接近于 0。簡單說來,iRAG 的商業價值體現在:無幻覺、超真實、沒成本,立等可取。" 李彥宏提到。
随着百度不斷攻克技術難點,iRAG 的應用場景也在不斷延伸,包括漫畫作品、連續畫本、海報制作、影視作品等應用領網域,iRAG 為提高 AI 生成内容的真實感和精細度,下足了功夫。
iRAG 技術泛用到更多應用空間,也為這些行業提供了短周期、低成本的解決方案。
百度再進化:
用 AI 連接一切業務,重塑内容生态鏈條
作為生成式 AI 和大模型技術的領先玩家,近年來百度的技術進階和應用布局實現大幅進步。
從深度學習框架 " 飛槳 " 的持續更新,到文心大模型性能的提升,再到内部不斷重構已有產品,百度已形成一個處于動态且正向循環的 AI 商業生态。
無論是 AI 創作新物種自由畫布的橫空出世,還是 AI 生圖技術 iRAG 的能力躍遷,背後都離不開百度深厚的積累和實踐。
自由畫布的自由、靈活、高效,源于文心大模型的持續進化。從創作自由度來看,文心大模型的跨模态能力,能夠支撐不同領網域、不同模态的内容生成,在提升效率的同時,也為用戶提供了更好的使用體驗。
而文心大模型的更新,也為 iRAG 技術的高質量生成提供了技術可能。随着百度對大模型性能的提升,今年 6 月份發布的文心大模型 4.0 Turbo,比上一版速度更快、效果更好,理解、生成等基礎性能均有顯著提升。
在供給側,百度不斷迭代出最強大的基礎大模型系列,包括文心大模型旗艦版 ERNIE 3.5、4.0、4.0 Turbo,也提供可以免費調用的輕量版 ERNIE Speed、Lite、Tiny,降低了用戶的使用門檻。
截至 11 月初,百度文心大模型的日均調用量已經超過 15 億,相較一年前首次披露的 5000 萬次,增長近 30 倍。
随着 AI 技術能力不斷進化,百度也在擴大 AI 落地應用的規模。
在重構業務中,百度文庫的進化效果顯著,其從一個文檔共享平台進化為内容創作的 "AI 百寶箱 ",将應用場景拓展到了學習辦公、家庭教育、娛樂消費等多個領網域,推出了智能 PPT、智能寫作、思維導圖等上百項 AI 能力。
如今,百度文庫 AI 月活用戶規模,已經達到國内第一梯隊。據其披露的數據,百度文庫在智能 PPT 領網域的市場份額已經超過八成;截至 2024 年 10 月,百度文庫 AI 用戶數累計超過 2.3 億,AI 功能累計使用次數超過 28 億。
百度的最終目标是,在大模型時代形成由無數智能體構成的智能生态。
李彥宏認為,智能體是 AI 應用的最主流形态,即将迎來它的爆發點。" 在模型之上構建智能體是相當方便的,這也是為什麼今天每周都有上萬個新的智能體在文心平台上被創造出來。"
AI 搜索被認為是智能體分發的入口。借助 AI,百度的搜索引擎變得更懂用戶的細分需求,可以為用戶提供更準确和直接的答案,也提升了開發者效率,開發者更容易創建出為用戶量身定制的智能體。用李彥宏的話說,生成式 AI 與搜索就是 " 天作之合 "。
作為工具類智能體,自由畫布便是智能生态中各業務相互融合後形成的獨特產物。
它的能力來源于百度文庫與百度網盤,前者為其提供了海量的公網域資料,後者則協助其從私網域中提供素材。比如,文庫上公開的高質量文檔或片段、網盤聽記上記錄的多場電話會議的音頻等,用戶全都可以用到自己的創作中。
兩大業務深度融合後,幫助自由畫布打通了過去公網域與私網域資料之間存在的限制,避免了 AI 應用之間數據流通的孤島現象。用戶通過自由畫布可以不受阻礙地進行内容資源的消費或運用,以創作多元化和專業化的内容。
而更高質量的 AI 生成内容,又可以豐富整個内容生态,進一步改變用戶 AI 產品或工具的價值認知,驅動用戶擁抱被 AI 改寫的内容消費。
百度一直極為重視挖掘 AI 時代的增長潛力。李彥宏也曾在公開場合呼籲," 中國有數百個基礎模型,但人們越來越多地讨論什麼是 AI 時代的超級應用 ",行業參與者應當将精力放到 AI 應用上。
事實上,百度已經在大模型與 AI 應用的相互配合之中,将技術優勢轉化為具體的商業價值——越來越多創新產品可以為整個生态提供發展增量。
接下來的事情就要交給時間:持續保持在產品創新、市場推廣等方面的投入,提升用戶滿意度和產品的市場接受度,不斷穩固其市場地位,并等待用戶需求爆發的那一刻。
>