大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

豆包更新了“眼睛”,看APP截圖就能寫代碼了!超低價讓多模态AI普惠

2024-12-20 简体 HK SG TW

今天小編分享的科學經驗:豆包更新了“眼睛”,看APP截圖就能寫代碼了!超低價讓多模态AI普惠,歡迎閲讀。

豆包的 " 眼睛 " 更新了,現在讓它看一眼APP 截圖,就能直接給你生成代碼!

話不多説,我們直接給它上一個難度。

例如我們先随機截取一張網站的圖片:

再來到火山方舟的大模型廣場,pick 一下最新的 Doubao-vision-pro-32k 版本:

(PS:該模型也可以在豆包 APP 中體驗)

然後把剛才的截圖 " 喂 " 給豆包,并附上一句簡單的 Prompt:

幫我寫代碼,克隆這個 APP。

只見豆包先是秒看出這是一個音樂 APP 的界面,緊接着就唰唰唰地敲起了代碼。

從代碼的功能上來,包括了菜單欄、播放列表框架、播放列表列表框和狀态欄。

模拟的播放列表中包含了幾首歌曲的信息,包括标題、藝術家、時長和點贊數等。

而且這些都是在不到 30 秒内完成的。

若是想實現更復雜的功能,我們也是可以繼續用説的:

那繼續幫我實現更復雜的音樂播放應用。

這一次,也僅僅耗時1 分鍾,在原先代碼的基礎上,新增了控制面板、播放按鈕、更新進度條等内容。

嗯,現在開發一個 APP,真的變成截張圖的事兒了。

這便是豆包最新發布的新模型——豆包 · 視覺理解模型。

綜合來看,它的亮點可以歸結為如下三點:

内容識别更強:支持 OCR、影像知識、動作情緒、位置狀态等,尤其對中國傳統文化理解更深。

理解與推理增強:優化數學、邏輯、代碼的推理與問答能力。

視覺描述細膩:提供詳細影像描述,可創作多種文體内容,如產品介紹、故事、視頻腳本等。

更重要的一點,發布即大降價——0.003 元 / 千 tokens。

相當于1 塊錢可以處理284 張圖片!

不過有一説一,畢竟考驗大模型 " 視力 " 這事,不能只看單一的產品。

因此,接下來,我們就組個擂台,看看哪個大模型的 " 眼神 " 更好使。

大模型 " 視力 " 大比拼

我們請出的打擂台選手,正是目前大模型的頂流之一—— OpenAI 的GPT-4o。

比試規則也很簡單,就是通過不同維度的試題,來看看作答的效果。

Round 1:復雜、生僻物體識别

第一輪比試中,我們先小試牛刀一下一個不常見的水果,請看圖:

然後我們分别問一下兩位選手:

圖中的是什麼東西?

△上圖為豆包作答;下圖為 GPT-4o 作答(下同)。

從回答内容上來看,二者雖然都回答對了,但特點各有不同。

豆包 · 視覺理解模型回答更加與金鈴子緊密相關;而 GPT-4o 則是更傾向于金鈴子與苦瓜的不同。

若是比試要求是與圖中物體高度相關,那麼或許豆包 · 視覺理解模型的回答更優質一些。

再來一張冷門的影像,請看題:

這是什麼?

再來看一下兩位選手的作答:

它們都看出來這是一個冷門樂器,不過這一次,豆包 · 視覺理解模型明顯回答的要更精準一些——樂器叫做 Mizmar。

不僅如此,它還把其材質、文化特點等信息都講述了出來;而 GPT-4o 這邊的回答,只能説是描述了大概。

這一輪,豆包 · 視覺理解模型,Win!

Round 2:大家來找茬

要比視力,那 " 大家來找茬 " 這個遊戲就絕對不能錯過啦 ~

請看題目:

找出 10 個不同點。

我們來看一下兩位選手的回答:

這一輪的比拼中,問題就比較明顯了,兩位選手都沒有完整給出正确答案(部分正确)。

看來 AI 玩大家來找茬還是具備一定的挑戰性。

Round 3:反向猜 Prompt

現在 AI 圖片生成的能力可謂是爐火純青,但當我們看到一幅中意的作品,卻苦于無法復刻 Prompt 時,又該怎麼辦?

這道題,是時候可以交給 " 會看 " 的大模型來處理了。

例如我們随機來一張比較抽象的藝術作品:

然後分别讓豆包 · 視覺理解模型和 GPT-4o 來猜一下它的 Prompt:

看這張圖,幫我寫一段能夠重新生成類似作品的 Prompt。

為了公平起見,我們不采用豆包和 ChatGPT 自帶的生圖功能,而是将兩段 Prompt 交給第三方Midjourney來處理,結果如下:

△上圖:基于豆包的 Prompt;下圖:基于 GPT-4o 的 Prompt

從還原度上來看,或許豆包 · 視覺理解模型給出的 Prompt,是更加貼近原作的那一個。

Round 4:數學競賽大比拼

數學題目是測試大模型邏輯推理能力很好的方法。

因此,我們直接上一道AIME 數學競賽題,看看夠不夠 " 開門 "。

(AIME:美國數學邀請賽,是介于 AMC10、AMC12 及美國數學奧林匹克競賽之間的一個數學競賽。)

這道題目翻譯過來是這樣的:

每天早晨,Aya 會進行一段長度為 9 公裏的散步,然後在一家咖啡店停留。當她以每小時 s 公裏的恒定速度行走時,整個散步加上在咖啡店停留的時間一共需要 4 小時,其中包含在咖啡店停留的 t 分鍾。當她以 s+2 公裏每小時的速度行走時,整個過程(包括在咖啡店停留的時間)需要 2 小時 24 分鍾。

假設 Aya 以 s+1/2 公裏每小時的速度行走,求她在這種情況下(包括在咖啡店停留的時間)的總時間(以分鍾為部門)。

這個任務的難度在于,AI 需要先準确識别晦澀的數學問題和公式,而後再進行精準的推理。

接下來,我們分别來看下豆包 · 視覺理解模型和 GPT-4o 的表現(上下滑動查看):

這道題目官方給出的正解是204 分鍾。

而 GPT-4o 的結果卻并非如此,因此,本輪豆包 · 視覺理解模型大獲全勝。

Round 5:日常實用任務

其實在日常工作、學習生活中,還是存在很多需要 AI 看圖來輔助完成的任務。

例如提取復雜表格的數據,或許就會讓很多人苦惱,尤其是準确性方面。

因此,我們最後一輪就以蘋果第四季度财務報告中的一個表格來做測試(上下滑動查看):

幫我抽取并整理圖中的數據,用中文來表述。

先來看下豆包 · 視覺理解模型的回答(上下滑動查看):

不難看出,豆包 · 視覺理解模型非常清晰地将财報數據以表格的形式展現了出來,可以説是一目了然。

然而,同樣的需求給到 GPT-4o 這邊,雖然數據是提取了出來,但在呈現方式上卻有所欠缺,依然是經典的羅列式(上下滑動查看):

在幾輪 " 擂台比拼 " 過後不難看出,豆包 · 視覺理解模型在能力上已經具備了一定的優勢。

但 " 眼睛 " 的更新,還只是豆包大模型這次發布内容的一隅。

説、唱能力都更新了

沒錯,除了 " 看 " 之外," 説 " 和 " 唱 " 的能力也更新了。

而這也正對應了豆包大模型的三大類:

大語言模型

語音大模型

視覺大模型

首先在大語言模型方面,豆包的通用模型 pro與小半年前相比:

綜合能力提升了 32%

數學能力提升 43%

專業知識提升 54%

代碼能力提升 58%

其次是語音大模型方面,豆包 · 音樂模型現在可以直接生成3 分鍾完整音樂!

例如我們在其 APP海綿音樂裏輸入一個簡單的 Prompt:

三分鍾音樂,滄桑,男聲,民謠,歲月蹉跎。

來聽一下效果:

生成三分鍾音樂的難度,并非只是簡單的堆疊時長,而是更多涉及到的是前奏、主歌、副歌、間奏、尾奏等完整結構。

不僅如此,這也和視頻生成類似,對前後的一致性提出了更高的要求。

而從這個音樂片段中不難聽出,确實是做到了上述的要求,而且還是支持改詞的那種哦 ~

除了可以用 Prompt 來生成音樂之外,現在豆包 · 音樂模型還支持用圖片來作曲了。

例如我們 " 喂 " 給海綿音樂下面這張圖:

這次的效果是這樣的:

從音樂中可以聽出,AI 是識别到了圖裏《黛玉葬花》的感覺,歌詞和配樂充滿了哀傷之情。

據悉,豆包 · 音樂模型目前支持多達到 17 種曲風、11 種心情,以及 6 種特征的音樂。

最後,在視覺模型方面,除了我們剛才展示的豆包 · 視覺理解模型之外,豆包 · 文生圖模型也迎來了更新——

現在,一句話可以搞定 P 圖這件事了:

戴上眼鏡。

不僅如此,做海報,也是幾句話的事,而且還是能生成漢字的那種:

生成一張海報,主體是漢字 " 量子位 ",充滿科技感和未來感。

由此可見,這一次,豆包大模型在 " 説 "、" 唱 "、" 看 " 三大維度上确實是提升了不小的實力。

不看廣告只看療效

不過有一説一,實力是一方面,站在大模型應用為王的當下,或許好用才是真正的硬道理。

在把 AI 用起來這件事上,其實豆包也是拿出了一份成績單。

首先從數據上來看,截至 12 月 18 日,豆包大模型日均 tokens 使用量已經突破4 萬億大關。

其次再看實際落地,據悉豆包大模型已經上崗科教、金融、醫療、企業服務和汽車等眾多行業,已經與多個頭部企業達成合作。

市場和用户對豆包的買賬程度,可見一斑。

而在此過程中," 易落地 "也是一個關鍵點。

這就不得不提此次也同樣迎來更新的兩大法寶:左手 "HiAgent",右手 " 扣子 "。

例如 HiAgent 提供超 100 個行業應用模板和 GraphRAG 技術,提升知識處理準确性,支持多模态互動與復雜場景需求,企業無需從零開發即可快速上線。

再如扣子擁有百萬開發者和豐富生态,支持 200 萬智能體,覆蓋智能客服、内容營銷等場景,極大縮短開發與部署時間。

除此之外,它兼容小程式、網頁等多種形式,支持實時語音互動與硬體集成,企業可輕松實現 AI 能力無縫嵌入。

一言蔽之,低門檻模板、強大的生态支持和多平台兼容,是使得 HiAgent 和扣子能夠快速适配企業場景,實現高效落地的關鍵。

那麼對于豆包這次眾多的更新,你對哪個更感興趣呢?歡迎體驗過後回來交流哦 ~

—  完  —

點這裏關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們