英偉達官宣AI聊天機器人，本地RTX顯卡運行，這是要挑戰OpenAI？

今天小編分享的科技經驗：英偉達官宣AI聊天機器人，本地RTX顯卡運行，這是要挑戰OpenAI？，歡迎閱讀。

機器之心編輯部

OpenAI 進軍芯片領網域，英偉達自己造聊天機器人，這是 Sam vs Jensen 的時代？

下載地址：https://www.nvidia.com/en-us/ai-on-rtx/chat-with-rtx-generative-ai/

在這波 AI 淘金熱裡，英偉達經常被稱為那個「賣鏟子的人」，而且賣的是難以替代的鏟子。依靠這個角色，英偉達市值已經超越亞馬遜，成美股第四大公司，離谷歌市值僅一步之遙。

但值得注意的是，英偉達本身也在這波 AI 浪潮裡淘金。剛剛，他們發布了一個對話機器人 ——「Chat with RTX」，面向 GeForce RTX 30 系列和 40 系列顯卡用戶（至少有 8GB VRAM）。有人開玩笑說，Sam Altman 進軍芯片領網域，黃仁勳進入聊天機器人的領網域，這是 Sam vs Jensen 的時代。

與 ChatGPT 等需要聯網使用的聊天機器人不同，Chat with RTX 可以在本地運行，幫你檢索、分析保存在電腦上的檔案（支持文本、PDF、.doc、.docx 和 .xml 等格式）。比如，你可以問它「在拉斯維加斯時，我的搭檔推薦了哪家餐廳？」Chat with RTX 将掃描你指向的本地檔案，并提供帶有上下文的答案。

此外，它還可以幫你分析、總結 Youtube 上的視頻，而且只需要你提供網址。科技媒體 The Verge 資深編輯 Tom Warren 在試用之後表示，Chat with RTX 在視頻中找參考資料的速度非常快，只需要幾秒就能給答案，不過有時也會出錯，找到驢唇不對馬嘴的視頻文字記錄。

據悉，Chat with RTX 默認使用人工智能初創公司 Mistral 的開源模型，但也支持其他基于文本的模型，包括 Meta 的 Llama 2。它會利用 RTX GPU 上的 Nvidia Tensor core 來加快查詢速度。Nvidia 警告說，下載所有必要檔案會占用相當大的存儲空間 —— 50GB 到 100GB，具體取決于所選模型。

Tom Warren 表示，他的電腦采用英特爾酷睿 i9-14900K 處理器，配備 RTX 4090 GPU，安裝 Chat with RTX 大約花了 30 分鍾。在他系統可用的 64GB 内存中，Python 實例占用了大約 3GB 内存。程式運行後，他可以通過浏覽器訪問 Chat with RTX，而後台運行的命令提示符會顯示正在處理的内容和任何錯誤代碼。

Tom Warren 還發現，Chat with RTX 在掃描 PDF 檔案和核對數據時非常有用。微軟自己的 Copilot 系統在 Word 中不能很好地處理 PDF 檔案，但 Chat with RTX 聊天系統可以毫無問題地提取出所有關鍵信息，回復也近乎即時，沒有通常使用基于雲的 ChatGPT 或 Copilot 聊天機器人時的延遲。

不過，作為一款早期產品，Chat with RTX 還有很多不完善的地方。

一個比較大的缺點是，它不能記憶上下文。比如，你問「北美常見的鳥類是什麼？」，然後接着問「它是什麼顏色？」，它就不知道你是在問鳥的顏色。

英偉達還承認，Chat with RTX 回復的相關性會受到一系列因素的影響，其中有些因素比較容易控制，包括問題的措辭、所選模型的性能和微調數據集的大小。詢問幾份文檔中涉及的事實可能比詢問一份文檔或一組文檔的摘要得到更好的結果。英偉達表示，随着數據集的增大，響應質量通常也會提高，将 Chat with RTX 指向有關特定主題的更多内容也是如此。

所以，整體來看，Chat with RTX 還是一個初級的產品，暫時不太适合用于生產。但它代表了一種趨勢，即讓 AI 模型更容易地在本地運行。

世界經濟論壇在最近的一份報告中預測，能夠離線運行生成式 AI 模型的經濟型設備将「大幅」增長，其中包括個人電腦、智能手機、物聯網設備和網絡設備。報告表示，原因在于其明顯的優勢：離線模型不僅在本質上更加私密 —— 它們處理的數據永遠不會離開運行的設備，而且與雲托管模型相比，它們的延遲更低，成本效益更高。

英偉達公司創始人兼首席執行官黃仁勳表示：「生成式人工智能是計算史上最重要的一次平台轉型，它将改變包括遊戲在内的每一個行業。英偉達擁有超過 1 億台 RTX AI PC 和工作站，是開發者和遊戲玩家享受生成式人工智能魔力的龐大安裝基礎。」

Chat with RTX 技術 demo 由 GitHub 上的 TensorRT-LLM RAG 開發人員參考項目構建而成。開發人員可以使用該參考項目為 RTX 開發和部署自己的基于 RAG 的應用程式，并通過 TensorRT-LLM 進行加速。