剛剛！字節跳動豆包上線圖片理解，大模型走向多模态 - 大酷樂

今天小編分享的科技經驗：剛剛！字節跳動豆包上線圖片理解，大模型走向多模态，歡迎閲讀。

（圖片來源：林志佳拍攝）

國内活躍度最高的 AI 大模型應用正走向 " 多元化 "。

12 月 3 日消息，钛媒體 AGI 獲悉，字節跳動豆包日前上線了一項實用功能——圖片理解。目前，豆包 APP 及豆包 PC 新增照片及相機按鈕，上傳圖片後可識别圖片内容。

相比普通的 OCR 識别（光學字元識别）技術，豆包的 " 圖片理解 " 并非識别文字，而是識别圖片信息。比如，問一個景點在哪裏，問動漫人物是誰，豆包都能流暢進行回答。

再比如，早前，馬斯克創立的人工智能公司 xAI 宣布為 Grok 增加了影像理解功能，而馬斯克本人也出來官宣了，并發布以下圖片，稱 "Grok 現在能夠理解影像了，甚至還可以解釋笑話 "。

這是一幅四格漫畫，内容是一個關于物理學家和牛頓的笑話。把這個四格漫畫發給豆包，也能看到它對這個笑話的解析。

1. 第一格：文字："HOW DO WE KNOW IF THEY'RE ACTUALLY DEAD OR JUST PRETENDING"（我們怎麼知道他們是真的死了還是只是假裝？）影像：兩個人站在戰場上，周圍有許多倒地的士兵。

2. 第二格：文字："PHYSICISTS"（物理學家），影像：兩個人開始觀察和思考。

3. 第三格：文字："Discovered"（發現了），影像：兩個人似乎有了某種發現，表情變得興奮。

4. 第四格：文字："Isaac Newton invented gravity"（艾薩克 · 牛頓發明了重力），影像：兩個人得出結論，表情滿意。

笑話解析：這個笑話諷刺了物理學家有時會提出一些看似荒謬但卻基于科學理論的解釋。漫畫中的兩個人在戰場上看到士兵倒地，他們沒有考慮士兵是死是活，而是思考這背後的科學原理。最後，他們得出結論是牛頓發明了重力，暗示士兵是因為重力而倒地。這種思維方式幽默地表現了物理學家對科學原理的執着和有時不切實際的思考方式。

你認為，上述這個解析結果怎麼樣？符合事實嗎？

事實上，随着 AI 大模型狂飙兩年，企業越來越多瞄向更實用的落地場景，" 圖片理解 " 就是其中一項，它可以解決一些搜索、查找評估、文本寫作等場景的需求，這使得大模型更加貼近實用場景需求。

QuestMobile 最新數據顯示，2024 年 10 月，AI 原生應用行業月活躍用户規模達到 8976 萬，同比增長 373.0%。用于情感陪伴、職場辦公、趣味休閒、文案寫作、教育學習、生活助手、影像生成、行業顧問等場景中。

公開資料顯示，字節跳動的豆包 App 已經成為中國日活用户最高的 AI 大模型產品。

同時，截止到 2024 年 10 月，在網頁端訪問量方面，Kimi 智能助手、文心一言、豆包、通義千問分别達到 2863 萬、2111 萬、1688 萬、1012 萬；在移動端 AI 原生應用方面，行業月活規模總數達到 8976 萬，同比增長 373%，其中，豆包、Kimi 智能助手、文小言月活躍用户分别為 4839 萬、1650 萬、1179 萬。

随着 AI 浪潮的興起，各大廠商都在積極探索與 AI 大模型融合發展的新契機，AI 有望引領全球新一輪科技創新周期，從而促使效率進一步增長。

據 Statista 數據顯示，預計到 2030 年，全球 AI 領網域規模将超過 1.8 萬億美元。

（本文首發于钛媒體 App，作者｜林志佳，編輯｜胡潤峰）