一小時翻譯整部《甄嬛傳》，AI面試官發offer……在杭州看AI落地的1000種玩法

今天小編分享的互聯網經驗：一小時翻譯整部《甄嬛傳》，AI面試官發offer……在杭州看AI落地的1000種玩法，歡迎閱讀。

文｜周鑫雨

制圖｜況澤宇

拍攝｜周鑫雨鄧詠儀

編輯｜蘇建勳

2024 年 9 月 19 日開幕的阿裡雲雲栖大會上，近 300 家涵蓋算力、模型、應用的 AI 企業，和近 1000 種 AI 產品，構成了一幅全行業的活地圖。

多模态和具身智能，兩個今年最熱的 AI 風口，在雲栖占據絕對的 C 位——

雲栖大會 " 人工智能 +" 館。

走進匯聚了近 60 家模型企業的 " 人工智能 +" 館，能明顯感受到，如果不加點音視頻相關的多模态能力，光拼參數的大模型已經不夠看了。

而具身智能，是 " 前沿應用館 " 最 "City" 的存在。一進場館，就能看到 20 多家機器人企業，攜着或仿真人、或仿狗子的產品，給你來上一段取貨、翻跟頭、猛踹不倒的炫技表演。

不過，無論是多模态，還是具身智能，再高大上和先鋒的科技，能在雲栖引起圍觀的，只有 " 接地氣 "。

這屆雲栖，參觀者中第一次出現了 " 義烏老板團 "。面對同聲傳譯、數字人主播和可一鍵生成商品圖的應用，他們替用戶提出了最為現實的問題：能幫我賺多少錢？

當紅大模型獨角獸月之暗面的展台，大概是 " 班味 " 最濃的一個。不少白領、IT 都聚了過來，激辯字節的 " 豆包 " 和月暗的 "Kimi"，哪個辦公更好使。

在最具未來感的具身智能展台，被暴力踹踢而不倒的 " 小強 " ——逐際動力的雙足機器人，引得不少路人圍觀。這款用于展示機器 " 小腦 " 研究成果的機器人，目前還待在實驗室裡，供力學研究。

逐際動力雙足機器人。

這也擋不住觀眾對此發出靈魂一問：

" 推不倒，到底有啥用？"

多模态，模型的标配

通義千問：沒有不想落地短視頻的多模态應用

一進模型扎堆的 " 人工智能 +" 體驗館，很難不被 " 通義大模型 " 展區的 AI 太極寫真生成體驗區吸引。

通義 AI 太極寫真。

體驗者只要比劃對應的姿勢，在鏡頭中與簡筆畫合上——幾十秒後，一張太極寫真就出爐了。

當然，圖生圖的 AI 寫真功能，只是阿裡雲模态版圖中的一小塊。作為東道主，阿裡不僅發布了最新的視頻生成模型，還搬來了文生圖、圖生視頻、圖 + 音頻生視頻的多模态全家桶。

全民舞王。

比如，在通義千問 App 内，阿裡上線了 10 秒左右的短視頻生成應用 " 全民舞王 "。

用戶只需上傳人或寵物的照片，以及一段說話音頻，就能在 1-2 分鍾内生成舞蹈視頻、對嘴唱歌視頻，或者動态表情包。目前，這還是個免費的功能。

人像動态視頻生成技術 EMO（Emote Portrait Alive）。

" 全民舞王 " 的背後，是阿裡巴巴智能計算研究所在 2024 年 2 月發布的人像動态視頻生成技術 EMO（Emote Portrait Alive）。僅需一張肖像照和一段音頻，EMO 就能讓人物按照音頻内容張嘴唱歌、說話。

據現場工作人員介紹，自 2024 年 4 月 25 日上線以來，" 全民舞王 " 的使用人數已經突破了 10w+。多數用戶的使用方式是

" 這太适合 I 人做短視頻了吧！" 有參觀者感嘆。

" 沒有不想落地短視頻的多模态應用！"

智譜：視頻拍到哪，作業講到哪

讓家長紛紛駐足的展台中，一定有智譜。

2024 年 8 月 29 日，智譜将 " 類 GPT-4o" 的視頻通話功能，搬上了自己的 C 端應用 " 智譜清言 "。

這款融合了視頻理解、語音對話能力的功能，就好比 AI 突然有了五感。用戶可以用智譜清言學穿搭、識别物品，也可以把它當成賽博閨蜜。

當然，更适合中國人 " 活到老學到老 " 體質的玩法，就是 AI 教師。

對着作業打開攝像頭，手機鏡頭拍到哪，智譜清言就能解答到哪。并且，智譜清言的講解，質量甚至和真人教師有的一拼，不僅循循善誘，還有問答互動。

比如講解 " 雞兔同籠 "，智譜清言不會直接給出答案，而是先引導孩子列出二元一次方程組。

智譜清言視頻通話功能。

孩子再也不怕難題，家長也解放了雙手。

生數 Vidu：給我一張劇照，我還你一段新海誠

同樣是 " 清華系 " 出身的生數科技，展出了自研的視頻生成模型 Vidu。2024 年 4 月發布時，Vidu 因為性能優秀，還一度出圈，被稱作 " 中國版 Sora"。

但即便是 OpenAI 的 Sora 本尊，也很難解決視頻的前後一致性問題。不難發現，大多 AI 視頻中，每一幀的臉都不一樣。

為了解決一致性難題，生數的解決辦法是，給 Vidu 找個 " 模特 "。

2024 年 9 月 11 日生數科技發布的 " 主體參照 "（Subject Consistency）功能，讓 Vidu 根據給出的參考圖，确定視頻主體的形象和風格。

" 主體參照 "（Subject Consistency）功能。

現場，作者上傳了一張新海誠電影《鈴芽戶締》的女主角 " 鈴芽 " 的劇照，Vidu 就根據鈴芽的形象，生成了一段秋日公園視頻。

VAST Tripo：3D 生成也有 Scaling Law

" 我們有全球最大的 3D 數據庫。"

這是我們在展區唯一聽到過的帶有 " 最 " 字的判斷。這句話，來自 3D 生成領網域的明星企業 VAST。

國内不少人可能會覺得 VAST 面生，原因在于，這家由前 MiniMax 和商湯成員創立的公司，第一天就做了出海的生意。

據工作人員介紹，VAST 在海外主打面向遊戲、XR 開發者的 C 端應用，在國内則主打 B 端應用，" 并且我們在海外商業化不錯 "。

不少圈内人對 VAST 的 3D 生成模型 Tripo 的評價是：高性能，操作友好。根據輸入的文字或者圖片，Tripo 僅 8 秒就能生成 3D 原型圖，并且支持市面上所有的 3D 原型編輯軟體，還能直接 3D 打印。

Tripo 現場 3D 打印。

Tripo 文字生成 3D 素材。

當下，3D 生成模型的訓練，也沿用堆參數的暴力美學 Scaling Law。2024 年初，VAST 發布的 Tripo 1.0，參數就達到了數十億，在訓練數據稀缺的 3D 模型中是相當龐大的存在。

提高參數，相應的也要增加模型的訓練數據。

工作人員透露，在獲取稀缺的高質量 3D 數據過程中，團隊花了不少時間在 " 犄角旮旯 " 中獲取數據。而在訓練過程中，模型也用了不少 AI 合成 3D 數據。

就在 2024 年 9 月 19 日，VAST 還發布了生成質量更好的 Tripo 2.0，實現 10 秒⽣成形狀⼏何、10 秒⽣成紋理及 PBR（一種模拟光與材質相互作用的渲染技術）。

音瘋：AI 玩音樂照樣瘋

2024 年 7 月，網紅秦新宇因整容失敗發布的名為《還我媽生鼻》的魔性歌曲，突然衝上了微博熱搜。

而這首歌的譜曲者，不是秦新宇，也不是專業音樂團隊，而是一個上線不到兩月的 AI 音樂生成平台 " 音瘋 "。

音瘋 AI 音樂體驗區。

音瘋展台。

這款由昆侖萬維推出的音樂制作平台，特點在：長。工作人員表示，音樂生成的難點在于保持前後一致性，一旦歌曲超過 1 分鍾，前後的曲風很難保持一致。

因此，音瘋的賣點在于，将 AI 音樂生成的時長拉到了 4 分鍾，并且能夠相對保持前後風格的一致性。用戶只需要輸入歌詞，并且在曲庫和人聲庫中選擇喜歡的風格，就能生成一段歌曲。

當然，工作人員告訴作者，目前音瘋使用最高頻的場景，也是短視頻：）。

HiDream.ai：為電商量身定制的 AI 生圖

HiDream.ai（智象未來）的展台，駐足了一批批的義務商家。

這家由前京東探索研究院副院長梅濤成立的 AIGC 公司，基因裡就帶着 " 電商 " 兩個字。雖然同樣是圖片生成，HiDream.ai 的 AIGC 創作平台 " 秩象 "，就像集布景、拍攝、後期于一身的商品圖工作室。

HiDream.ai 的 AIGC 創作平台 " 秩象 "。

比如，商家只要輸入商品圖，就能靈活切換背景、模特。在為服裝生成模特圖的過程中，商家甚至能夠選擇模特姿勢、性别、膚色、人種。

月之暗面：視頻功能，Kimi 懷胎中

人工智能 + 館人氣最旺的展館，有 Kimi 的一席之地。

在一眾把圖片、音頻、視頻、3D 等模态玩出花的模型中，仍然主打文本、表格和代碼任務的 Kimi 就稍顯樸素。

當然，這并不影響 Kimi 展台的人氣——或者準确來說，是 " 班味 "。

現場不乏有上班族，直接向工作人員詢問文字轉 excel、檔案生成報表、文書撰寫的方法。甚至還有企業 IT，直接來咨詢 Kimi API 如何接入釘釘、企微和飛書。

Kimi 展台。

不過，這款打工神器，也免不了朝着更多模态迭代。工作人員對作者透露，Kimi 的視頻功能，已經在路上！

機器人炸場，虛拟人扎堆

銀河通用：松弛感拉滿的機器人售貨員

擅長 " 抓 " 的銀河通用機器人 Galbot G1，這次走進了未來的無人商超。

消費者在平板上下單後，Galbot G1 機器人就會前往貨架，準确拿取下單的商品。

Galbot G1。

不過，這位機器人售貨員的取貨速度，有些太慢了——從下單到接到冰紅茶，差不多用了 1 分鍾。想要進商超，機器人還是得先戒掉這絕佳松弛感。

當然，無人售貨只是銀河通用展示的其中一個場景。目前，Galbot G1 已經能夠精準抓取礦泉水、雨傘等随機放置的物品，還能夠熟練開櫃門、抽屜和晾衣服。

工作人員表示，2024 年 Q4，就有希望看到機器人進入真實的商業場景。

清寶：仿真機器人，上流水線搬磚

和披着人皮的機器廠友做同事，馬上就要成為現實了。

在清寶機器人的展台，幾名不斷變換 pose 的仿真機器人構成了門面——然而，由于眼珠轉動過于靈活，但表情麻木，這幾名機器人還是產生了一些恐怖谷效應。

清寶機器人。

而這幾名仿真機器人的作用，既不是陪伴，也不是做智能導遊、機器人主播之類的 " 文職 "，而是直接進工廠！

目前，由于流水線 SOP（标準操作流程）比較固定單一，且整機機器人成本較高，投入真實流水線使用的機器人，大多是單一的機械臂。

據工作人員介紹，目前籤單的整機人形機器人，在流水線上主要做的是質檢和零件分配，客戶給出的理由也很别致：" 想讓產線有點溫度 "。

當然，對于客戶而言，機器人帶來的溫暖，還得在降本增效上。工作人員對作者表示，機器人一年可以節省 20% 左右的人工成本。

酷開：雲電視，抓住 AI 稻草

" 這幾年電視行業太難了！" 雲電視廠商酷開的員工，上來就倒了滿滿的苦水。随着電視機大盤被移動智能產品擠壓，雲電視廠商的日子也不好過。

不過，2024 年以來，酷開算是守得雲開見月明—— AI 是他們抓住的稻草。

酷開在雲電視上線的 AI OS，支持語音搜索電視劇、電影，以及網絡咨詢，還能向 Chatbot 等智能助手一樣，給用戶推薦片單。

比如用語音輸入 " 陳道明演皇帝的電視劇是什麼？" 酷開立刻顯示了搜索結果：《慶餘年 1、2》《楚漢傳奇》《康熙王朝》。

酷雲雲電視 AIOS。

值得一提的是，搜索結果顯示的演員照片、電視劇劇照，全都是由 AI 在後台生成的。酷開工作人員告訴作者，這是為了能夠精準貼合用戶的搜索需求，" 比如你的偶像是鹿晗，你想看他的劇，肯定也想看到搜索結果全都是他的照片。"

不僅如此，酷開也能根據用戶的個人喜好，用 AI 生成片單推薦視頻。

上線 AI OS 一個月，酷開就吃到了 AI 帶來的甜頭。工作人員表示，内嵌大模型能力後，使用語音互動功能的用戶數量和時長有了明顯的提升；與此同時，技術成本的增加還能控制在 10% 以内。

阿裡雲視頻團隊：一鍵給《甄嬛傳》配英文字幕

一部成熟的電視劇，就應該學會自己給自己配多語言字幕。

這個美好的願景，已經被阿裡雲視頻團隊實現了。

阿裡雲視頻團隊的視頻字幕翻譯功能。

以往給電視劇配外語字幕，是個大工程。你需要先把台詞轉錄成中文字幕，再翻譯成外語。與此同時，配字幕還免不了用剪輯工具。

如今，基于通義實驗室自研的算法，用戶已經可以實現 " 端到端 " 翻譯甄嬛傳：不需要給字幕，直接扔視頻檔案，就能自動配英文字幕。

獵聘 " 多面 · doris"：未來，AI 給你發 offer

第一批數字人面試官，已經上崗了。

獵聘旗下的 AI 產品 " 多面 · doris"，就是一位在 24 小時内，面試 400 多人的 AI 面試官。

目前，獵聘 AI 面試有設定問題、智能問答等多種模式。比如在智能問答環節，AI 首先會基于簡歷，分析出應聘者的潛在風險點，比如 " 頻繁跳槽 "" 任職時間不長 "，後續的面試，也大概率會圍繞這些問題展開。

獵聘 AI 面試產品 " 多面 · doris"。

不過，不少面試者反饋，由于缺乏即時互動，以及難以從 AI 面試官的撲克臉中獲得反饋，和 AI 面試反而更緊張了。

最後，工作人員貼心提醒，數字人面試官比較适合一面、二面等人才的初篩環節。如果企業想要聘請高端人才，還是由人出馬更顯誠意！

Motiff 妙多：設計師救星，一句話也能生成 UI 了

目前國内最懂 UI 設計的大模型，源自一個叫做 Motiff 妙多 A 的團隊。

至少需要一周的 UI 設計，現在被簡化成了輸入一段話。

用戶只需文字輸入所需的界面類型、組成部分，以及定制化的描述，20 秒左右，就能生成兩版 UI 設計稿。

Motiff AI 生成 UI。

與此同時，基于自研的 UI 大模型對布局的理解能力，原有 Cmd+V、Cmd+C 的重復動作，被 Motiff 簡化成了一步到位的下拉動作。

狼人殺不盡，AI 吹又生

除了機器人和數字人，前沿應用館最容易找到的，應該就是 AI 狼人殺。

遊戲公司巨人網絡，就将 AI 狼人殺，作為投放在抖音、B 站上的季節性用戶活動。

這些 AI NPC 的 " 攻擊性 " 還挺高，玩家發言一旦有邏輯漏洞，就會被 " 群起而攻之 "。

巨人網絡 AI 狼人殺。

這些 24 小時無休、永遠在線的 AI NPC，将巨人季節性活動的用戶時長，增加了 10 倍多。

在 2018 年上線的劇本殺 App" 百變大偵探 "，近一個月也基于通義千問上線了 AI 劇本殺。

更進一步，玩家可以直接用語音和 AI NPC 進行對話。不過，對話的輪次有限制，想要增加對話次數，玩家只能氪金——這也是目前不少 AI 劇本殺的主要商業模式。

" 百變大偵探 "AI 劇本殺。

當然，在遊戲前加了 "AI" 兩字，并非全是好事。

工作人員告訴作者，接入大模型後，技術成本就提升了不少。與此同時，團隊選擇劇本也更為謹慎：太復雜的本，AI 不理解；太簡單的本，用戶不願玩。

只能說，AI 在進步，人也得跟着進步。

歡迎交流！