大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

豆包更新了“眼睛”,看APP截图就能写代码了!超低价让多模态AI普惠

2024-12-20 简体 HK SG TW

今天小编分享的科学经验:豆包更新了“眼睛”,看APP截图就能写代码了!超低价让多模态AI普惠,欢迎阅读。

豆包的 " 眼睛 " 更新了,现在让它看一眼APP 截图,就能直接给你生成代码!

话不多说,我们直接给它上一个难度。

例如我们先随机截取一张网站的图片:

再来到火山方舟的大模型广场,pick 一下最新的 Doubao-vision-pro-32k 版本:

(PS:该模型也可以在豆包 APP 中体验)

然后把刚才的截图 " 喂 " 给豆包,并附上一句简单的 Prompt:

帮我写代码,克隆这个 APP。

只见豆包先是秒看出这是一个音乐 APP 的界面,紧接着就唰唰唰地敲起了代码。

从代码的功能上来,包括了菜单栏、播放列表框架、播放列表列表框和状态栏。

模拟的播放列表中包含了几首歌曲的信息,包括标题、艺术家、时长和点赞数等。

而且这些都是在不到 30 秒内完成的。

若是想实现更复杂的功能,我们也是可以继续用说的:

那继续帮我实现更复杂的音乐播放应用。

这一次,也仅仅耗时1 分钟,在原先代码的基础上,新增了控制面板、播放按钮、更新进度条等内容。

嗯,现在开发一个 APP,真的变成截张图的事儿了。

这便是豆包最新发布的新模型——豆包 · 视觉理解模型。

综合来看,它的亮点可以归结为如下三点:

内容识别更强:支持 OCR、影像知识、动作情绪、位置状态等,尤其对中国传统文化理解更深。

理解与推理增强:优化数学、逻辑、代码的推理与问答能力。

视觉描述细腻:提供详细影像描述,可创作多种文体内容,如产品介绍、故事、视频脚本等。

更重要的一点,发布即大降价——0.003 元 / 千 tokens。

相当于1 块钱可以处理284 张图片!

不过有一说一,毕竟考验大模型 " 视力 " 这事,不能只看单一的产品。

因此,接下来,我们就组个擂台,看看哪个大模型的 " 眼神 " 更好使。

大模型 " 视力 " 大比拼

我们请出的打擂台选手,正是目前大模型的顶流之一—— OpenAI 的GPT-4o。

比试规则也很简单,就是通过不同维度的试题,来看看作答的效果。

Round 1:复杂、生僻物体识别

第一轮比试中,我们先小试牛刀一下一个不常见的水果,请看图:

然后我们分别问一下两位选手:

图中的是什么东西?

△上图为豆包作答;下图为 GPT-4o 作答(下同)。

从回答内容上来看,二者虽然都回答对了,但特点各有不同。

豆包 · 视觉理解模型回答更加与金铃子紧密相关;而 GPT-4o 则是更倾向于金铃子与苦瓜的不同。

若是比试要求是与图中物体高度相关,那么或许豆包 · 视觉理解模型的回答更优质一些。

再来一张冷门的影像,请看题:

这是什么?

再来看一下两位选手的作答:

它们都看出来这是一个冷门乐器,不过这一次,豆包 · 视觉理解模型明显回答的要更精准一些——乐器叫做 Mizmar。

不仅如此,它还把其材质、文化特点等信息都讲述了出来;而 GPT-4o 这边的回答,只能说是描述了大概。

这一轮,豆包 · 视觉理解模型,Win!

Round 2:大家来找茬

要比视力,那 " 大家来找茬 " 这个游戏就绝对不能错过啦 ~

请看题目:

找出 10 个不同点。

我们来看一下两位选手的回答:

这一轮的比拼中,问题就比较明显了,两位选手都没有完整给出正确答案(部分正确)。

看来 AI 玩大家来找茬还是具备一定的挑战性。

Round 3:反向猜 Prompt

现在 AI 图片生成的能力可谓是炉火纯青,但当我们看到一幅中意的作品,却苦于无法复刻 Prompt 时,又该怎么办?

这道题,是时候可以交给 " 会看 " 的大模型来处理了。

例如我们随机来一张比较抽象的艺术作品:

然后分别让豆包 · 视觉理解模型和 GPT-4o 来猜一下它的 Prompt:

看这张图,帮我写一段能够重新生成类似作品的 Prompt。

为了公平起见,我们不采用豆包和 ChatGPT 自带的生图功能,而是将两段 Prompt 交给第三方Midjourney来处理,结果如下:

△上图:基于豆包的 Prompt;下图:基于 GPT-4o 的 Prompt

从还原度上来看,或许豆包 · 视觉理解模型给出的 Prompt,是更加贴近原作的那一个。

Round 4:数学竞赛大比拼

数学题目是测试大模型逻辑推理能力很好的方法。

因此,我们直接上一道AIME 数学竞赛题,看看够不够 " 开门 "。

(AIME:美国数学邀请赛,是介于 AMC10、AMC12 及美国数学奥林匹克竞赛之间的一个数学竞赛。)

这道题目翻译过来是这样的:

每天早晨,Aya 会进行一段长度为 9 公里的散步,然后在一家咖啡店停留。当她以每小时 s 公里的恒定速度行走时,整个散步加上在咖啡店停留的时间一共需要 4 小时,其中包含在咖啡店停留的 t 分钟。当她以 s+2 公里每小时的速度行走时,整个过程(包括在咖啡店停留的时间)需要 2 小时 24 分钟。

假设 Aya 以 s+1/2 公里每小时的速度行走,求她在这种情况下(包括在咖啡店停留的时间)的总时间(以分钟为部門)。

这个任务的难度在于,AI 需要先准确识别晦涩的数学问题和公式,而后再进行精准的推理。

接下来,我们分别来看下豆包 · 视觉理解模型和 GPT-4o 的表现(上下滑动查看):

这道题目官方给出的正解是204 分钟。

而 GPT-4o 的结果却并非如此,因此,本轮豆包 · 视觉理解模型大获全胜。

Round 5:日常实用任务

其实在日常工作、学习生活中,还是存在很多需要 AI 看图来辅助完成的任务。

例如提取复杂表格的数据,或许就会让很多人苦恼,尤其是准确性方面。

因此,我们最后一轮就以苹果第四季度财务报告中的一个表格来做测试(上下滑动查看):

帮我抽取并整理图中的数据,用中文来表述。

先来看下豆包 · 视觉理解模型的回答(上下滑动查看):

不难看出,豆包 · 视觉理解模型非常清晰地将财报数据以表格的形式展现了出来,可以说是一目了然。

然而,同样的需求给到 GPT-4o 这边,虽然数据是提取了出来,但在呈现方式上却有所欠缺,依然是经典的罗列式(上下滑动查看):

在几轮 " 擂台比拼 " 过后不难看出,豆包 · 视觉理解模型在能力上已经具备了一定的优势。

但 " 眼睛 " 的更新,还只是豆包大模型这次发布内容的一隅。

说、唱能力都更新了

没错,除了 " 看 " 之外," 说 " 和 " 唱 " 的能力也更新了。

而这也正对应了豆包大模型的三大类:

大语言模型

语音大模型

视觉大模型

首先在大语言模型方面,豆包的通用模型 pro与小半年前相比:

综合能力提升了 32%

数学能力提升 43%

专业知识提升 54%

代码能力提升 58%

其次是语音大模型方面,豆包 · 音乐模型现在可以直接生成3 分钟完整音乐!

例如我们在其 APP海绵音乐里输入一个简单的 Prompt:

三分钟音乐,沧桑,男声,民谣,岁月蹉跎。

来听一下效果:

生成三分钟音乐的难度,并非只是简单的堆叠时长,而是更多涉及到的是前奏、主歌、副歌、间奏、尾奏等完整结构。

不仅如此,这也和视频生成类似,对前后的一致性提出了更高的要求。

而从这个音乐片段中不难听出,确实是做到了上述的要求,而且还是支持改词的那种哦 ~

除了可以用 Prompt 来生成音乐之外,现在豆包 · 音乐模型还支持用图片来作曲了。

例如我们 " 喂 " 给海绵音乐下面这张图:

这次的效果是这样的:

从音乐中可以听出,AI 是识别到了图里《黛玉葬花》的感觉,歌词和配乐充满了哀伤之情。

据悉,豆包 · 音乐模型目前支持多达到 17 种曲风、11 种心情,以及 6 种特征的音乐。

最后,在视觉模型方面,除了我们刚才展示的豆包 · 视觉理解模型之外,豆包 · 文生图模型也迎来了更新——

现在,一句话可以搞定 P 图这件事了:

戴上眼镜。

不仅如此,做海报,也是几句话的事,而且还是能生成汉字的那种:

生成一张海报,主体是汉字 " 量子位 ",充满科技感和未来感。

由此可见,这一次,豆包大模型在 " 说 "、" 唱 "、" 看 " 三大维度上确实是提升了不小的实力。

不看广告只看疗效

不过有一说一,实力是一方面,站在大模型应用为王的当下,或许好用才是真正的硬道理。

在把 AI 用起来这件事上,其实豆包也是拿出了一份成绩单。

首先从数据上来看,截至 12 月 18 日,豆包大模型日均 tokens 使用量已经突破4 万亿大关。

其次再看实际落地,据悉豆包大模型已经上岗科教、金融、医疗、企业服务和汽车等众多行业,已经与多个头部企业达成合作。

市场和用户对豆包的买账程度,可见一斑。

而在此过程中," 易落地 "也是一个关键点。

这就不得不提此次也同样迎来更新的两大法宝:左手 "HiAgent",右手 " 扣子 "。

例如 HiAgent 提供超 100 个行业应用模板和 GraphRAG 技术,提升知识处理准确性,支持多模态互動与复杂场景需求,企业无需从零开发即可快速上线。

再如扣子拥有百万开发者和丰富生态,支持 200 万智能体,覆盖智能客服、内容营销等场景,极大缩短开发与部署时间。

除此之外,它兼容小程式、网页等多种形式,支持实时语音互動与硬體集成,企业可轻松实现 AI 能力无缝嵌入。

一言蔽之,低门槛模板、强大的生态支持和多平台兼容,是使得 HiAgent 和扣子能够快速适配企业场景,实现高效落地的关键。

那么对于豆包这次众多的更新,你对哪个更感兴趣呢?欢迎体验过后回来交流哦 ~

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們