英伟达发了个有点弱的端侧模型，却想喊话大家举手投降

今天小编分享的科技经验：英伟达发了个有点弱的端侧模型，却想喊话大家举手投降，欢迎阅读。

英伟达在 2024 年 2 月 14 号的时候推出了这么一个产品，叫做 Chat with RTX。顾名思义，就是和英伟达的显卡聊天。简单来说 Chat with RTX 是一个本地部署的大语言模型工具，可以实现和大语言模型对话，还支持处理多种檔案类型，用户可以与其进行文本、PDF、Word 文档等多种格式内容的互動。

上手体验：有点弱

体验了一下，无论模型选择 Mistral 还是 Llama 2，中文的互動都不太顺畅，倒是英文的表现还说得过去。Chat with RTX 的确展现了相当出色的资料索引能力，能读懂绝大多数英文的资料。可是到看视频的部分，除了英伟达自己发布的一些视频外，Chat with RTX 几乎没办法完全看懂任何一部视频。一开始我以为是跟显卡有关，我的显卡是 3080，性能远不如现在的卡皇 4090。但是当看到一位使用 4090 显卡的用户也有相同的吐槽后，我一下子就释怀了。

int4 量化

可以看到，出现在 Chat with RTX 里的，并不是我们记忆里的 Llama 2 和 Mistral，而是这两个模型后面还带着一行 " 小尾巴 "，上面写着 INT4。这个 INTX 代表的是量化级别，因为大语言模型需要在内存和显存里运行，所以当部署到本地的时候，考虑到个人电腦性能远不如伺服器，所以需要量化来为模型继续拧 " 瘦身 "。INT8 量化是使用 8 位有符号整数来近似原本 32 位浮点数（FP32）的权重和激活值，其数值范围是 -128 至 127。INT4 量化是进一步压缩到 4 位整数，这意味着更少的数据存储空间，但数值范围仅为 -8 至 7 或 0 至 15。INT4 量化会带来更大程度的精度损失，因为它所能表达的数值更有限，可能导致更多的信息丢失，特别是在需要较高精度的任务中。

Chat with RTX 最大的意义是它能真正意义上实现全程无联网，所有计算资源、资料库全部来自于本地数据。对于大语言模型而言，能实现到这种程度是非常难的。市面上几乎所有号称本地部署的模型，本质上并不能脱离联网状态，尤其是手机上的大语言模型。

这些模型的做法是把预处理和后处理这两个部分放到手机里，而训练和推理这些消耗资源比较大的部分放到云端来进行。我们讲大模型的整个运行过程都是要放在内存里来跑的，其中一个很重要的原因是大语言模型它是连续分布的，模型在内存中以连续的一块内存区網域存放，确保了向量和矩阵操作的连续性和并行计算的可行性。

以个人电腦的硬體水平，如果不做特殊处理是根本不可能实现的，也就意味着它不可能完全将大语言模型本地部署，最低限度也要将训练和推理这两个消耗比较大的部分搬到网上。

Chat with RTX 能把所有的部分全都在本地完成，而且整个运行过程中我没有感受到电腦丝毫的卡顿，响应速度也比 ChatGPT、Gemini 要快。

意在喊话：未来还是我英伟达支配的未来

英伟达他是一个游戏公司啊。免费推出 Chat with RTX 的本意跟所有游戏厂商放出游戏 demo 的性质是一模一样的。比如就在 Chat with RTX 发布的前几天，科乐美发布的免费游戏《寂静岭：短信》，这个游戏一共两个小时流程，没有任何内购内容。难道科乐美买卖不干了，以后就指着发布免费游戏过瘾？并不是这样的，他是为了日后推出的《寂静岭》系列重置版打广告，赔本赚吆喝。

不过当你把 Chat with RTX 给拆开来就会发现，里面没有新技术，像是 RTX 加速、RAG，早就已经出现了。英伟推出这个产品最大的作用是打广告，尤其是 Chat with RTX 里面 TensorRT 这样的技术，此前只出现在 H100、H200 这种规格的 GPU 上，我们老百姓使用的 30 系列 40 系列显卡根本没有。而 Chat with RTX 则是完美地将这个技术呈现到了消费者层面。

但是要注意，Chat with RTX 里面的 TensorRT 也好，RAG 也好，想要调用他们几位大哥，都需要对应的权限。虽然我们硅星人是人工智能的媒体，不过我这里还需要先补充一些硬體知识，以便下文做铺垫。在计算机里，应用程式通常是不直接调用硬體资源的，而是通过系统 API 向作業系統申请使用硬體资源。比如我打游戏，计算机需要把游戏画面展示给我看，可应用程式并不会直接读写显卡内存，而是调用图形 API 如 DirectX 或 OpenGL，由它们将指令转化为显卡可以理解并执行的操作。

而且不同軟體对硬體资源的访问权限。这是由于系统为了保护系统的稳定性和安全性，不是所有軟體都能随意访问任意硬體设备。只有经过授权或认证的軟體才能获得必要的权限，比如管理员权限才能安装新的驱动程式或者访问敏感硬體。那么换句话说，如果今后所有开发者需要这些技术，就必须要和英伟达共同开发，变相地形成了裙带关系。而英伟达本身则可以利用这种局面，形成对人工智能軟體市场的垄断。

基于 RTX 显卡的技术可以大幅度加快大语言模型的运行速度，以实现脱网运行。根据英伟达官网给出的信息，英伟达 50 系列搭载了第四代张量核心，人工智能领網域的计算性能是上一代的 4 倍。还支持 FP8 精度数据类型的加速，并提供独立的浮点和整数数据路径，以加速混合浮点和整数计算的执行。有了它，Chat with RTX 的性能肯定会大幅度增加。

那么与之相对的，开发者就更要打点好和英伟达的关系。这其中就存在一个裹挟的问题，经常玩游戏的朋友肯定清楚英伟达 DLSS 的故事。2018 年，随着 RTX 系列显卡的发布，英伟达推出了第一代 DLSS 技术。这一技术的核心思想是通过训练一个神经网络模型来预测高分辨率影像，从而替代传统的超级采样方法。相较于 DLSS，传统超级采样需要对每个像素进行多次渲染以减少锯齿并提高画面质量，但计算量巨大，非常消耗 GPU 资源。

就拿那时候最火的游戏《赛博朋克 2077》来说，采用 3060Ti 显卡，开启 DLSS 后画面能来到 75FPS，关闭后连 60FPS 都够呛。那么好，接下来几乎所有大作都必须得使用 DLSS，除了像《荒野大镖客 2》这种索尼限时独占的游戏外，不走 DLSS 几乎没办法达到预期的画面表现力。

Chat with RTX 的出现，其实也是一种预示，预示英伟达将在大模型领網域开启新的敛财模式，即贩卖开发套件。你开发商不买我的开发套件没问题，但是你没权限调用我的张量核心，你大模型没办法在离线跑起来，就这么简单。对消费者和企业大客户，你必须使用英伟达新的 GPU 产品才能满足人工智能领網域的新需求；对开发者，你必须购买英伟达的人工智能开发套件才有权限调用。大模型成为了英伟达的聚宝盆。