今天小編分享的互聯網經驗:張向征:AIGC技術重塑數字人,釋放新需求,歡迎閱讀。
7 月 28 日至 7 月 31 日第 20 屆中國國際數碼互動娛樂展覽會(ChinaJoy)在上海舉行。7 月 28 日,由漢威信恒主辦,钛媒體集團協辦的 2023 ChinaJoy AIGC 大會正式召開。大會聚焦時下熱議的 AIGC 行業,邀請國内外 AIGC 領網域的行業代表專家、學者、企業大咖重磅參會,從技術層面、應用層面、價值投資層面,全生态視角探讨 AIGC 技術下的内容產業新業态。
360 智腦總裁張向征發表了題為《從數字人到數智人:360 智腦的解決方案》的演講。
張向征指出,AIGC 技術可以重塑數字人,釋放新需求。大模型本身有強大的内容理解能力和用戶需求理解能力、文本生成的能力,讓傳統的數字人可以和人進行實時智能的對話,滿足人的各類需求,解決人的各種工具性問題。同時,在數字人生產和制作方面,文生圖工具,包括影像生成、視頻生成、跨模态語義理解和可控影像編輯工具,可以讓數字人的創作更加高效。
新一代數字人不僅只有形象,有語音,而且可以學會人說話的方式,以及人的背景信息。張向征介紹,通過大模型的學習訓練,數字人可以代替我們完成智能客服、進行直播、進行銷售及進行培訓,幫助我們提高各類工作的效率,經過訓練的數字人甚至可以實現數字分身,在不方便出席或者沒有時間出席的場合完成講話。
以下是張向征在 2023 ChinaJoy AIGC大會上的演講全文(略經钛媒體 App整理):
尊敬的各位來賓,大家上午好!
我是 360 的張向征,今天我跟大家分享 360 智腦在數字人領網域的探索和應用。
AIGC 技術的發展,尤其是大模型技術的出現,讓娛樂行業擁有了大腦和靈魂,而且帶來了需求和供給的雙增量。在需求方面帶來了新的應用場景,比如說數字人、數字永生。在解放生產力方面帶來了新技術、新的 AI 工具,幫助内容創作者降低生產成本,提高生產效率。
AIGC 技術可以重塑數字人,釋放新需求。比如說因為大模型的出現,大模型本身有強大的内容理解能力和用戶需求理解能力、文本生成的能力,可以讓傳統的數字人不再是工具人,而是可以和人進行實時智能的對話,滿足人的各類需求,解決人的各種工具性問題。
在數字人生產和制作方面,文生圖工具,包括影像生成、視頻生成、跨模态語義理解和可控影像編輯工具,可以讓數字人的創作更加高效。
AIGC 技術無論在文字、影像、音頻、視頻多個領網域,都可以全鏈條降本增效,幫助企業快速應用到自己的業務場景上。
在今年上半年,依托 360 過去多年在算法、數據、工程、架構各方面的積累,發布了 360 智腦的認知型通用大模型。模型集成了多個工具,包括 360 GPT 大模型,對标 ChatGPT 類似的做文本的理解和生成。同樣有影像生成大模型、影像處理工具,也有 360 鴻圖做復雜的文本影像治理,以及能夠根據用戶指令結合用戶提交的圖片、細節修改,定制化地對影像進行復雜處理。
360 智腦具備十大核心能力,可以覆蓋大模型應用的各種場景。比如說生成與創作能力,360 智腦的生成與創作能力可以更好地理解用戶角色的訴求,比如說制造了孫悟空的數字人,孫悟空說話需要有自己的特色和用語;制造了諸葛亮的數字人,需要用文言文的方式更好地回答各種用戶的問答。
同樣的道理,在更復雜的場景,需要多輪對話的能力,需要理解用戶的前文上下文。閱讀理解的能力,更好地理解用戶的意圖,知識問答的能力,更好地解決用戶的需求,應用在廣泛的應用場景上。
360 大模型的開發,依托了以往多年在各個領網域的積累,比如說在搜索原來,我原來是做搜索方向的,在搜索領網域積累了海量中文網頁及對中文網頁進行内容抽取、數據清晰的能力。同樣,在 RP 領網域,已有的搜索技術需要跟蹤各類大模型的新進展,以前 Bard、GPT 的出現我們也會在内部進行各種嘗試和應用。
搜索服務本身也可以作為 360 智腦大模型的增強工具,作為一種外挂知識庫,解決大模型的連接問題,提高大模型的内容實效性和實時性。
360 智腦最大的問題是安全,有在模型基礎框架和安全的積累,也有在内容安全下的積累,讓輸出的内容更加安全可控。
大模型驅動的數字人能夠帶來生產效率的提升,以及颠覆生產關系,新一代數字人不僅只有形象,有語音,而且可以學會人說話的方式,以及人的背景信息。通過大模型的學習訓練數字人可以代替我們完成智能客服、進行直播、進行銷售及進行培訓,幫助我們提高各類工作的效率,經過訓練的數字人可以實現數字分身,在不方便出席或者沒有時間出席的場合完成講話。
與傳統的數字人相比,已有的影視級數字人成本極高,需要 3A 建模,需要專業的演員,需要專業的拍攝設備,投入動辄百萬起,而已有的虛拟人在後續運維上也需要投入較大的成本。
已有的形象克隆數字人可以進行直播,也可以按照人提供的内容進行内容輸出,比較直觀和形象。但存在兩個缺點:一是内容需要有人來寫,而 2 個小時的直播需要提供海量的文本内容,需要經常性進行變化。二是念稿的機器人只是單向的,沒有辦法及時響應用戶的需求和提問,導致用戶有時候會覺得有點虛假和不真實。
360 智腦機器人的核心優勢是具備 " 最強外表 + 最強大腦 ",有三個特點:
一是以人為本,多模态互動。360 智腦大模型應用耗用、易用是關鍵,大模型技術很強,但很多人在用 ChatGPT 時并沒有辦法把 ChatGPT 最強的能力發揮出來。有些專業的問題有些人可以問出來很好的答案,但有有些人問出來的答案效果不夠好。數字人背後已經有專業的人員定制了各種不同的角色,這些角色可以更好地讓用戶使用時就知道我們面對的是專業的律師、專業的醫生、專業的營銷顧問,在已有數據調研裡,使用數字人的場景、數字通用大模型的場景,用戶問答滿意度提升超過 10 個百分點。數字人形象相比傳統文本界面的互動,更直觀,更形象,這種多模态互動更符合人更自然的互動,所以用戶體驗更好。
二是有靈魂有記憶,需要利用已有的通用引擎的技術,把數字名人、古聖先賢,他們有一系列的背景知識、著作、才華、發表過的文章,只靠簡單的提示語沒有辦法很好地解決,需要有外挂的知識庫進行個性化的定制,才能提供更好的符合人設定義的服務。
三是能聯網、能學習。有很強的搜索及對話知識庫存的定制服務,用戶在使用的時候,可以及時聯網解決有效性和測試性的問題。
數字人前期治理的步驟,首先依托于搜索本身文本處理的能力,及時把網絡文本、文檔文本抽取出來,結合語義積累進行分段處理、執行、摘要,提前生成 Q&A 的問題。存儲階段,有賴于已有的通用引擎,這是 360 的引擎的基礎服務。
同時支持了基于關鍵詞的傳統搜索,以及基于向量的語義搜索,可以結合用戶的使用場景平衡用戶對精确性的要求、語義泛化性的要求。比如說在政府辦事的智能客服裡任何一點差錯都不能犯,要給用戶的信息要足夠精準,只靠語義相關沒有辦法解決,需要用到傳統搜索技術。
人機互動層面可以依賴于 360 智腦大模型語義理解能力,很好地對用戶從知識庫裡檢索出來的信息進行統一的匯總和輸出,更符合與人對話的自然語言理解。
針對垂直的行業和數字人特定地收集語料加入到預訓練和微調中,這樣才能具有專業性,提供比通用大模型更優的結果。
在遊戲領網域簡單的展示,只需要提供簡單的角色資料,以及采集一部分人物照片信息,加上 360 智腦大模型的能力,就可以生成能看見、能聽見、開放式問答的對話式數字人。
生成數字人之後還有提問,如果只靠大模型本身輸出的結果很難給出人具體的觀點,往往是大模型每次基于模型本深生成的結果有很大的随機性。但是當有了個性化、定制化的知識庫之後,數字信息就會更多代表更符合人設,更符合他已有的觀點,而不是用大模型本身去 " 胡說八道 "。
在現場問答的場景,具體使用時,一種是直播場景,可以單向對外輸出,另外一種是直觀和用戶進行問答(在線問答、實時問答),工具後台可以統一提供,可以用于直播場景,也可以用于實時問答場景。
360 智腦數字人不止在平台上可以用,而且做了整體的服務包裝,通過 API 和 SDK 很方便地挂載到第三方網站、第三方 APP 中,在用戶使用其他工具的場景下,很方便地進入數字人的場景,提供智能客服或者一系列的咨詢服務。
在其他應用場景也會有更復雜的場景,比如說大屏場景,需要的不止是簡單的對話,而需要和其他系統做復雜互動。
這是和城市文旅場景結合的數字人,不止需要問答,也需要把原有系統中的數據結合用戶問的問題,通過解析層具體的指令,獲取對應的結果化數據,再通過大模型的加工處理,用更自然的形式反饋給用戶。
除了大屏場景,還有數字分身,可以代表主人出席大會,如果有些人時間來不及的話,可以解決這一問題。另外可以用于直播間場景。
有人設,有記憶,有靈魂的數字人,最終的應用場景很多樣。
1. 數字伴侶。這種場景下人是需要有情感需求的,而裡面不止是現在用大模型時的專業化回答,需要有閒聊的模式,能更反映角色對應的特點。比如說可以作為情感陪伴。
2. 數字名人。我們自己做的 " 數字老周 " 也是類似的場景,需要和人對應的背景信息建設成個性化的知識庫,很好地融入到大模型的使用場景,解決大模型的幻覺,反饋出人本身的背景知識,自己對問題的理解、個性的特點
3. 數字專家。作為數字員工,比如說營銷專家、法律專家,作為數字員工給企業提供服務,提供的方式比泛泛地問大模型得到的效果好很多,因為他們的 partment 都是經過精心設計的。
4. 數字助手。大屏場景需要解決復雜的場景,需要和復雜的場景進行互動。
360 智腦目前已經有了多層布局,可以批量化規模生產數字人,成本很低。另外提供了對外的 API 平台,很方便地對外提供服務。未來可能的應用方向可以做更多的探索,比如說用于 AR、VR 領網域,希望有更多合作夥伴将來能一起探索更智能的未來。
謝謝大家!
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App