今天小编分享的科技经验:豆包PC端“开箱”,从语音卷到了方言,欢迎阅读。
出品|虎嗅科技组
作者|余杨
编辑|苗正卿
头图|视觉中国
8 月 22 日,火山引擎 AI 创新巡展上海站开幕,活动展示了豆包大模型在综合评分、语音识别等方面的效果提升,语音能力是此次发布重点。
大模型团队聚焦了对话式 AI 实时互動,产出 Seed-ASR ,这项成果或许可以对标 OpenAI 于 7 月 31 日发布的 ChatGPT 全新高级语音模式。
根据当时社交媒体上发布的视频,OpenAI 员工可以打断聊天机器人,并要求聊天机器人以不同的方式讲述故事,而聊天机器人则从容应对他们的打断并调整其响应。
简单来说,支持 " 边想边说 ",具备更强的上下文感知能力,因而有着更优秀的推理能力,更准确的回答结果。
引人注目的是,豆包声称其语音能力支持一个模型识别普通话和粤语、上海话、四川话、西安话、闽南语等多种中国方言。
这让我迫不及待想和它港言港语、川里川气几句。
接下来我将基于 1.19.5_mac 版本的豆包 AI PC 端,测试AI 文本伴读、截图识别以及日前大热的AI 看视频、AI 方言识别等功能,看看豆包相较于各家网页版 AI 大模型提供了哪些新的东西。
老规矩,着急的朋友可以直接下拉到总结环节。
AI 文本伴读
首先是 AI 文本的伴读。
我打开一条新闻,下拉到总结部分,选中我想要辅助的段落,豆包自动出现了搜索、翻译、解释、复制等功能。
在发现更多技能中,是 AI 划词工具栏,下设文本的扩缩写、修正、润色等功能 6 项,改写为社交媒体文案或视频脚本等功能 3 项,生成周报、okr、代码纠错等功能 4 项,优缺点总结、抽取任务项、头腦风暴等 6 项,加之难以归类的,一共有 22 项模块功能可自定义置顶設定。
我选择了最基础的要求豆包解释,经过约 25 秒的等待,我获得了以下这些内容。
可以看出,豆包首先概括大意,接着是对话性更强的通俗阐释,亮眼的是,它主动识别并解释了所选文資料欄落的专有名词,如上文的 " 帕累托规则 "。
至此,豆包这个模块所提供的 22 项功能是否能在智能化和个性化上显现出更深的理解能力,还有待观察,但可以明确的是,PC 端后台运行时,我不需要复制粘贴到另一个視窗来搜索,甚至摘出专有名词单独搜索或提问了。
AI 图片识别
当我使用豆包截图时,弹出了解题答疑、翻译、问问豆包3 个功能项,于是我选择了一道高中数学题请豆包解题答疑。
豆包不仅提供了截图区網域的一道题的解题过程和答案,还提供了几道类似的题目及其解答。
但当我使用翻译和问问豆包时,不仅无法智能断句,还频繁出错。
考虑图片识别的难度,我切换了成段落的文本,然而并没有改善。
我又尝试了问问豆包,下设整理图中核心内容和提取文字两个模块,我分别进行了尝试。
总的来说,核心内容整理功能的表现优秀,但文字提取甚至没有识别完整的图片,而这还是排列工整的铅字文。
AI 看视频
AI 看视频的功能目前仅限于 b 站视频,且需要在豆包界面中打开并登录 b 站账号。
于是我随机选择了《晚酌的流派》第三季 · 第 7 集的内容,经过了约 20 秒的等待获得了以下内容。
可以看出,视频分段的时间轴中,AI 的图文搭配并不准确,但基本上可以实现内容切分。
视频是日语配音,中文繁体字幕,大概也是为难豆包了。
视频开头对主旨有清晰概括,在右侧的文本总结中却并没有清晰体现。并且,在 " 对他人的感激 " 板块,视频中人物感谢的是鱼子小姐而不是牛田先生,豆包概括出错。
AI 方言识别
官宣文中,豆包支持粤语、上海话、四川话、西安话、闽南语,接下来则看看豆包能不能识别我的蹩脚粤语(没有我的家乡话,只有半年香港生活经历带来的蹩脚粤语,期待更多土著的使用体验分享~)。
语言识别没有问题,豆包理解了 " 我想吃粥底火锅 ",甚至提供了 " 北京哪里有好吃的粥底火锅?" 的选择搜索项,但消息发送后跳转到了 AI 搜索的对话界面,且回复我的是文本而不是语音。
另外,方言输入只在首页可以使用,我无法在对话界面继续以方言进一步输入。因此我需要一次次回到首页,而每一次的消息发送都将打开一个新的导航页視窗。。。
不过,能够方言输入仍然是较大的突破,总体表现差强人意。据了解,豆包的 app 端是支持语音回复的。
我尝试在手机 app 端以方言语音输入了同一句话,豆包以普通话语音回复了我,并提供了 " 北京哪里有好吃的粥底火锅?" 的选择搜索项。
也就是说,豆包支持方言输入,暂不支持方言互動。这一功能更多停留在趣味性和商务场合应用,譬如对方言参会者的会议记录整理。
总结环节
在我的想象中,桌面有一个 AI 电子人偶,它像我的猫一样为我提供情绪价值,还真正助理我 handle 我的一切。它像 Siri 一样容易唤醒,但比 Siri 更强大。
豆包的 AI 文本伴读在 PC 端可以跨应用服务,提供了 22 项模块功能,除了基础文本润色,还场景化了社畜、程式员、自媒体工作者的适用范围,它有着我想象中的基本面,但也有很大的探索和成长空间。
图片识别方面,解题答疑是不错的,相当于 PC 端的作业某帮和某猿。但考虑到 PC 端的用户群体,则期待豆包在高等数学 + 方面有深入的耕耘。毕竟,普通作业和试卷的解题答疑还是手机来得快,配合电子版题目或论文,才会产生 PC 端的需求。
AI 看视频的分段和总结功能十分抢眼,尤其是科普视频,豆包大有可为。人文社科主题则是各家大模型的共同难题。
事实上,AI 方言是我最期待的功能,毕竟," 乡音无改鬓毛衰 ",故乡有时是一串长长的菜单,有时是熟悉的 " 那味儿 "。但整体看来,豆包的方言互動生态还有一段路要走。
方言对话所识别的,不仅是现代都市人的故乡情思。更重要的,是科技穿透冰冷的螢幕,对那些无法说出通用 " 中文 " 的人的关怀,他们以生命书写着无声的历史,却常常被历史遗忘,他们同样需要 AI,以及 AI 附带的一切价值。
当方言从识别走到互動,豆包也许也会因此而走得更远。
如果你有观点、想法或想看的测评,欢迎和我交流。如果你喜欢这期内容,别忘了一键三连,因为这也是我探索更新的动力,我们下期再见~