今天小編分享的互聯網經驗:免費 AI “神器”系列第三彈:AI 視頻領網域的“字節跳動”誕生,首個GPT-4V盲測工具發布,歡迎閱讀。
圖片來源:unsplash
近期,生成式人工智能(AIGC)領網域又湧現出多款創意十足的新應用。
今天,钛媒體 AGI 梳理了免費 AI " 神器 " 系列第三彈,共五款,其中大多數實用工具能幫你提升一定的生產力。
AI 視頻編輯神器—— Runway Gen-2
胸部 x 光片診斷神器—— CheXagent
AlphaZero 更新版—— DeepMind 下象棋模型
Vision Arena:視覺模型盲測工具
圖片 3D 轉換器—— ComfyUI 3D Pack
1、AI 視頻編輯神器—— Runway Gen-2
產品信息:Runway Gen-2 是一款功能強大的 AI 視頻編輯軟體,用戶可以直接使用 " 文本 "、" 圖片 " 和 " 文本 + 圖片 " 三種方式提示生成視頻内容,并自動剪輯視頻。
產品功能:用戶在主界面可自由選擇 " 文本 "、" 圖片 " 和 " 文本 + 圖片 " 三種方式來生成視頻内容。以 " 文本 " 生成視頻為例,在輸入框輸入一段描述詞後,等待兩分鍾左右就會生成一段 4 秒的視頻内容。
除此之外,Runway Gen-2 還配備有其他 30 種強大的 AI 工具,比如:"Remove Background"(綠幕去背景)、"Expand Image"(圖片擴展)、"Blur Faces"(模糊人臉)、"Inpainting"(移除視頻雜物 / 人)等,可以幫助視頻内容創作者極大提高工作效率。
Runway Gen-2 配備有 30 種 AI 功能
據悉,Runway Gen-2 背後的開發團隊來自 Runway 公司,他們致力于開發用于生成視頻、影像和多媒體内容的產品和模型。在 2023 年 6 月,該公司以 15 億美元的估值,完成了 1.41 億美元的 C 輪融資,谷歌、英偉達等科技巨頭都參與了投資,被譽為 "AI 視頻生成領網域的字節跳動 "。
Runway Gen-2 首席執行官 Cristobal Valenzuela 曾表示," 創意軟體的時代已經結束。" 而有科技博主認為:" 如果(Runway)按照這個速度發展下去,到 2024 年底,我們或許能夠看到導演們手工制作出好萊塢水準的生成式視頻作品。"
體驗鏈接:https://app.runwayml.com/
2、胸部 x 光片診斷神器—— CheXagent
產品信息:CheXagent 是一個專門用來解讀胸部 x 光片的 AI 模型,旨在提高醫療影像診斷效率與準确性。
產品功能:用戶只需在 CheXagent 主界面上傳一張胸部 x 光片,等待數秒後即可生成相關的診斷結果,包括疾病識别、異常檢測、重要結構分析以及後續步驟建議。
CheXagent 界面
CheXagent 由斯坦福大學與 Stability AI 合作開發,結合了臨床醫學大語言模型、視覺編碼器和視覺 - 語言橋接網絡,利用超過 600 萬組數據的大型集合進行訓練,提升了解讀 X 光影像的能力。如若未來進入大規模應用,醫療工作者的工作效率和診斷準确率都将得到提升。
體驗鏈接:https://stanford-aimi.github.io/chexagent.html
3、AlphaZero 更新版—— DeepMind 下象棋模型
產品信息:Google DeepMind 抛棄傳統的搜索方法,使用 Transformer 模型,訓練了一個 AI 模型來下國際象棋。
產品功能:Google DeepMind 下象棋模型使用了一個國際象棋程式 Stockfish 16 來訓練,AI 不再需要像此前普通 AI 國際象棋依賴于搜索算法來預測和評估最佳選擇的走法,而是直接學習成千上萬棋局中的模式和策略,達到只需通過觀察當前棋盤的狀态,做出高水平決策的大師級棋藝。
DeepMind 下象棋模型相關論文
該模型在性能上超越了 AlphaGo Zero 和 GPT-3.5-Turbo-Instruct,證明了深度學習模型,特别是 Transformer 模型,能夠在復雜的決策和策略遊戲中學習和模拟高級人類智能,顯著減少了計算需求,為 AI 的自主學習和理解復雜系統提供了新的範例。
與 AI 下棋體驗地址:https://lichess.org/
4、Vision Arena:視覺模型盲測工具
產品信息:Vision Arena 是一款視覺模型領網域的開放評測對比平台,目的是測試和比較不同的視覺語言模型(VLMs),比如 GPT-4V、Gemini(谷歌模型)、Llava、Qwen-VL(通義模型)等。
產品功能:用戶可以在 Vision Arena 工具上同時測試兩個視覺模型,并對它們進行投票,以決定哪個更優秀。而且整個過程處于 " 盲測 " 狀态,需要選擇你認為好的結果才會告訴你模型是什麼。
據透露,這是全球首個 GPT-4V 的盲測工具軟體。未來,基于該工具的模型基準排行榜(Elo Rating)功能也将推出。
體驗地址:https://huggingface.co/spaces/WildVision/vision-arena
5、圖片 3D 轉換器—— ComfyUI 3D Pack
產品信息:ComfyUI 是一款基于穩定擴散模型(Stable Diffusion Model)架構技術,直觀、功能強大且實現模塊化的圖形平台,允許用戶創建復雜的 AI 文生圖工作,無需編程知識。
產品功能:今年 1 月,ComfyUI 宣布引入 3D 影像處理模型,能快速将圖片轉換成 3D 模型。如今,用戶可在 ComfyUI 3D Pack 平台上将圖片快速轉換成一個 3D 模型,并能從不同角度查看該 3D 模型,還能使用 3D 高斯擴散技術提升模型質量,讓 3D 模型看起來更加真實和具有立體感。此外,ComfyUI 3D Pack 還支持多種格式導出,集成了先進的 3D 處理算法。
ComfyUI 3D Pack 界面
體驗地址:https://github.com/MrForExample/ComfyUI-3D-Pack/tree/main
(本文首發钛媒體 App,作者|任穎文,編輯|林志佳)