今天小编分享的互联网经验:性能是其它AI PC的60倍,英伟达如何变革端侧AI?,欢迎阅读。
2024 年,AI PC 无疑是消费级市场中最受关注的焦点,同时端侧大模型及生成式 AI 的热度仍在持续上升。随着越来越多 AI PC 新品的发布,PC 产业正在迎来一场新的革命。
而这场革命中必然少不了英伟达。就在今日,英伟达于 CES 2024 中发布了 GeForce RTX 40 SUPER 系列产品,并正式对外宣布已优化的軟體、库及工具。
英伟达新的软硬體产品不仅将为游戏玩家带来全新的 AI 游戏体验,还将推动端侧生成式 AI 的普及。
RTX 40 SUPER 系列发布,英伟达加入 AI PC 主战场
AI PC,是指具备集成软硬體混合式智能学习与推理能力的计算机。
但目前业内对 AI PC 的定义仍较为模糊,以西南证券的研究报告为例,其将 AI PC 定义为:在架构设计上,AI PC 最重要的是嵌入了 AI 芯片,形成 "CPU+GPU+NPU" 的异构方案。
不过,英伟达在不使用 NPU 的情况下,仍能让 PC 表现出优异的性能,其表示:" 以宏碁、华硕、戴尔、惠普、联想、微星等合作伙伴发布全新 RTX AI 筆記型電腦为例,与使用 NPU 相比,RTX AI 筆記型電腦的性能可提升 20-60 倍。"
不过无论 AI PC 该如何被定义,在这一波浪潮中,产品性能才是王道,拥有创造和运行生成式 AI 的生态才是标准。这点也可以从其新款 RTX 40 SUPER 系列产品看出。
雷峰网了解到,本次发布性能最高的 GeForce RTX 4080 SUPER,在 AI 工作负载方面,生成视频的速度比 RTX 3080 Ti 快 1.5 倍,生成影像的速度比 RTX 3080 Ti 快 1.7 倍。SUPER GPU 的 Tensor Core 可提供最高可达 836 AI TOPS。
而新发布的 GeForce RTX 4070 Ti SUPER 则是拥有更多核心,显存容量增至 16GB,显存位宽为 256 bits。比 RTX 3070 Ti 快 1.6 倍,打开 DLSS 3 后,比 RTX 3070 Ti 快 2.5 倍。而 RTX 4070 SUPER,则是核心数量比 RTX 4070 多 20%,使其仅使用 RTX 3090 的一小部分功耗就实现了超越 RTX 3090 的性能,借助 DLSS 3,它的性能领先优势将扩大到 1.5 倍。
基于强大的 AI 性能,英伟达的 GeForce GPU 将给包括游戏玩家在内的用户带来全新的 AI 体验。
游戏玩家的全新体验和端侧 AI 的全面普及
英伟达推出了 NVIDIA ACE(Avatar Cloud Engine)微服务,它使用生成式 AI 让游戏 NPC 变得更真实,旨在增强用户与游戏 NPC 之间的互動。具体表现为,用户以自然语言对游戏 NPC 说话后,NPC 并无预设回复,而是由大模型生成 NPC 的反应、回复内容、语音、口型、神态。背后的大模型可以运行在云上,也可以运行在 PC 端。
同时,英伟达发布了 NVIDIA RTX Remix,用于创建经典游戏 RTX 重制版的平台。测试版将于本月底发布,提供生成式 AI 工具,可将经典游戏中的基本纹理转化物理精准的 4K 高精度材质。
帧率提升方面,NVIDIA DLSS 3 支持帧生成技术 ( Frame Generation ) ,可利用 AI 将帧率提高到原生渲染的 4 倍,据了解,这将用于已发布的 14 款全新 RTX 游戏中的十几款游戏中,包括《地平线:西之绝境》 ( Horizon Forbidden West ) 、Pax Dei 和《龙之信条 2》 ( Dragon ’ s Dogma 2 ) 等。 [ Bb1 ]
AI 开发者也可以充分利用端侧强大的 AI 能力,让生成式 AI 无处不在。
英伟达月底即将上线 NVIDIA AI Workbench 工具包,允许开发者在 PC 或工作站上快速创建、测试和自定义预训练的生成式 AI 模型和 LLM,并且项目可扩展到数据中心、公有云或 NVIDIA DGX Cloud 等,然后再回到 PC 或工作站上的本地 RTX 系统进行推理和轻量定制。该工具还简化了对 Hugging Face、GitHub 和 NVIDIA NGC 等流行存储库的访问。
NVIDIA AI Foundation Models and Endpoints ( 包括 RTX 加速的 AI 模型和軟體开发工具包 ) 有了新的进展。目前英伟达与惠普达成合作,将其集成到惠普 AI Studio 中,这是一个集成化的数据科学平台,简化 AI 模型的开发。这将使用户能跨 PC 和云轻松搜索、导入和部署优化后的模型。并且,为 PC 使用场景构建 AI 模型之后,开发者可使用 NVIDIA TensorRT 对其进行优化,以充分利用 RTX GPU 的 Tensor Core。
英伟达通过 TensorRT-LLM for Windows 将 TensorRT 扩展到基于文本的应用,目前最新更新现已发布,将 Phi-2 加入不断增长的 PC 预优化模型列表,与其他 backend 相比推理速度提升 5 倍;另一方面,TensorRT 扩展更新版的发布,令加速 Stable Diffusion XL ( SDXL ) Turbo 和 LCM 的性能提升了 60%。 [ Bb2 ]
英伟达还宣布了一项为 AI 爱好者而设计的技术 Demo —— Chat with RTX。据了解,这项服务或将作为开源参考项目于月底发布,让用户通过 " 检索增强生成 retrieval-augmented generation ( RAG ) ",可将 PC LLM 连接到自己的数据。该 Demo 由 TensorRT-LLM 加速,使用户快速与自己的笔记、文档和其他内容进行互動。