蘋果研究人員稱其設備端模型ReALM性能優于 GPT-4

今天小編分享的科技經驗：蘋果研究人員稱其設備端模型ReALM性能優于 GPT-4，歡迎閱讀。

IT 之家 4 月 2 日消息，雖然目前 Siri 可以嘗試描述信息中的影像，但效果并不穩定。不過，蘋果公司并沒有放棄人工智能領網域的探索。在最近的一篇研究論文中，蘋果的人工智能團隊描述了一種可以顯著提升 Siri 智能的模型，而且他們認為這個名為 ReALM 的模型在測試中優于 OpenAI 的知名語言模型 GPT-4.0。

IT 之家注意到，ReALM 的特别之處在于，它可以同時理解用戶螢幕上的内容和正在進行的操作。論文将信息分為以下三種類型：

螢幕實體：指的是當前顯示在用戶螢幕上的内容。

對話實體：指的是與對話相關的内容。例如，用戶說 " 打電話給媽媽 "，那麼媽媽的聯系人信息就是對話實體。

背景實體：指的是與用戶當下操作或螢幕顯示内容可能并不直接相關的實體，比如正在播放的音樂或即将響起的鬧鈴。

如果能夠完美運行，ReALM 将使 Siri 變得更加智能和實用。他們将 ReALM 與 OpenAI 的 GPT-3.5 和 GPT-4.0 進行了性能對比：

" 我們同時測試了 OpenAI 提供的 GPT-3.5 和 GPT-4.0 模型，并為它們提供了上下文信息，讓它們預測一系列可能的實體。GPT-3.5 只接受文本輸入，因此我們只提供了文字提示。而 GPT-4 能夠理解影像信息，因此我們為它提供了螢幕截圖，這顯著提升了它的螢幕實體識别性能。"

那麼蘋果的 ReALM 表現如何呢？

" 我們的模型在識别不同類型實體方面均取得了顯著進步，即使是最小的模型，在螢幕實體識别上的準确率也比原有系統提升了 5% 以上。與 GPT-3.5 和 GPT-4.0 的對比中，我們最小的模型與 GPT-4.0 的性能相當，而更大的模型則明顯優于它。"

論文的結論之一是，ReALM 即使擁有比 GPT-4 少得多的參數，也能在性能上與之匹敵，并且在處理特定領網域的用戶指令時表現更加出色，這使得 ReALM 成為一種可以在設備端運行的、實用高效的實體識别系統。

對于蘋果而言，如何在不影響性能的情況下将這項技術應用于設備似乎是關鍵所在，随着 WWDC 2024 開發者大會即将于 6 月 10 日召開，外界普遍期待蘋果将在 iOS 18 等新系統中展示更多的人工智能技術成果。