免費 AI “神器”系列第三彈：AI 視頻領網域的“字節跳動”誕生，首個GPT-4V盲測工具發布

今天小編分享的互聯網經驗：免費 AI “神器”系列第三彈：AI 視頻領網域的“字節跳動”誕生，首個GPT-4V盲測工具發布，歡迎閱讀。

圖片來源：unsplash

近期，生成式人工智能（AIGC）領網域又湧現出多款創意十足的新應用。

今天，钛媒體 AGI 梳理了免費 AI " 神器 " 系列第三彈，共五款，其中大多數實用工具能幫你提升一定的生產力。

AI 視頻編輯神器—— Runway Gen-2

胸部 x 光片診斷神器—— CheXagent

AlphaZero 更新版—— DeepMind 下象棋模型

Vision Arena：視覺模型盲測工具

圖片 3D 轉換器—— ComfyUI 3D Pack

1、AI 視頻編輯神器—— Runway Gen-2

產品信息：Runway Gen-2 是一款功能強大的 AI 視頻編輯軟體，用戶可以直接使用 " 文本 "、" 圖片 " 和 " 文本 + 圖片 " 三種方式提示生成視頻内容，并自動剪輯視頻。

產品功能：用戶在主界面可自由選擇 " 文本 "、" 圖片 " 和 " 文本 + 圖片 " 三種方式來生成視頻内容。以 " 文本 " 生成視頻為例，在輸入框輸入一段描述詞後，等待兩分鍾左右就會生成一段 4 秒的視頻内容。

除此之外，Runway Gen-2 還配備有其他 30 種強大的 AI 工具，比如："Remove Background"（綠幕去背景）、"Expand Image"（圖片擴展）、"Blur Faces"（模糊人臉）、"Inpainting"（移除視頻雜物 / 人）等，可以幫助視頻内容創作者極大提高工作效率。

Runway Gen-2 配備有 30 種 AI 功能

據悉，Runway Gen-2 背後的開發團隊來自 Runway 公司，他們致力于開發用于生成視頻、影像和多媒體内容的產品和模型。在 2023 年 6 月，該公司以 15 億美元的估值，完成了 1.41 億美元的 C 輪融資，谷歌、英偉達等科技巨頭都參與了投資，被譽為 "AI 視頻生成領網域的字節跳動 "。

Runway Gen-2 首席執行官 Cristobal Valenzuela 曾表示，" 創意軟體的時代已經結束。" 而有科技博主認為：" 如果（Runway）按照這個速度發展下去，到 2024 年底，我們或許能夠看到導演們手工制作出好萊塢水準的生成式視頻作品。"

體驗鏈接：https://app.runwayml.com/

2、胸部 x 光片診斷神器—— CheXagent

產品信息：CheXagent 是一個專門用來解讀胸部 x 光片的 AI 模型，旨在提高醫療影像診斷效率與準确性。

產品功能：用戶只需在 CheXagent 主界面上傳一張胸部 x 光片，等待數秒後即可生成相關的診斷結果，包括疾病識别、異常檢測、重要結構分析以及後續步驟建議。

CheXagent 界面

CheXagent 由斯坦福大學與 Stability AI 合作開發，結合了臨床醫學大語言模型、視覺編碼器和視覺 - 語言橋接網絡，利用超過 600 萬組數據的大型集合進行訓練，提升了解讀 X 光影像的能力。如若未來進入大規模應用，醫療工作者的工作效率和診斷準确率都将得到提升。

體驗鏈接：https://stanford-aimi.github.io/chexagent.html

3、AlphaZero 更新版—— DeepMind 下象棋模型

產品信息：Google DeepMind 抛棄傳統的搜索方法，使用 Transformer 模型，訓練了一個 AI 模型來下國際象棋。

產品功能：Google DeepMind 下象棋模型使用了一個國際象棋程式 Stockfish 16 來訓練，AI 不再需要像此前普通 AI 國際象棋依賴于搜索算法來預測和評估最佳選擇的走法，而是直接學習成千上萬棋局中的模式和策略，達到只需通過觀察當前棋盤的狀态，做出高水平決策的大師級棋藝。

DeepMind 下象棋模型相關論文

該模型在性能上超越了 AlphaGo Zero 和 GPT-3.5-Turbo-Instruct，證明了深度學習模型，特别是 Transformer 模型，能夠在復雜的決策和策略遊戲中學習和模拟高級人類智能，顯著減少了計算需求，為 AI 的自主學習和理解復雜系統提供了新的範例。

與 AI 下棋體驗地址：https://lichess.org/

4、Vision Arena：視覺模型盲測工具

產品信息：Vision Arena 是一款視覺模型領網域的開放評測對比平台，目的是測試和比較不同的視覺語言模型（VLMs），比如 GPT-4V、Gemini（谷歌模型）、Llava、Qwen-VL（通義模型）等。

產品功能：用戶可以在 Vision Arena 工具上同時測試兩個視覺模型，并對它們進行投票，以決定哪個更優秀。而且整個過程處于 " 盲測 " 狀态，需要選擇你認為好的結果才會告訴你模型是什麼。

據透露，這是全球首個 GPT-4V 的盲測工具軟體。未來，基于該工具的模型基準排行榜（Elo Rating）功能也将推出。

體驗地址：https://huggingface.co/spaces/WildVision/vision-arena

5、圖片 3D 轉換器—— ComfyUI 3D Pack

產品信息：ComfyUI 是一款基于穩定擴散模型（Stable Diffusion Model）架構技術，直觀、功能強大且實現模塊化的圖形平台，允許用戶創建復雜的 AI 文生圖工作，無需編程知識。

產品功能：今年 1 月，ComfyUI 宣布引入 3D 影像處理模型，能快速将圖片轉換成 3D 模型。如今，用戶可在 ComfyUI 3D Pack 平台上将圖片快速轉換成一個 3D 模型，并能從不同角度查看該 3D 模型，還能使用 3D 高斯擴散技術提升模型質量，讓 3D 模型看起來更加真實和具有立體感。此外，ComfyUI 3D Pack 還支持多種格式導出，集成了先進的 3D 處理算法。

ComfyUI 3D Pack 界面

體驗地址：https://github.com/MrForExample/ComfyUI-3D-Pack/tree/main

（本文首發钛媒體 App，作者｜任穎文，編輯｜林志佳）