今天小编分享的互联网经验:国产AI再次惊艳更新!天工3.0震撼发布!,欢迎阅读。
天工 3.0 更新页面
还记得一年前发布的 " 天工 1.0" 吗?当时双千亿级参数就已经让业界震惊了。没想到,仅仅一年过去," 天工 3.0" 的参数量就直接翻了一倍,高达 4000 亿!
我的天,4000 个亿啊!这是人类的腦子吗?
别慌别慌!咱先来看看 4000 亿参数到底有多厉害?用一个形象的比喻,如果把 " 天工 1.0" 比作一个傑出人士生,那 " 天工 3.0" 就是名校博士生导师级别的。它不仅有更广博的知识,更具备更深入的理解和更强大的处理能力。
当然,数量只是第一步,质量的提升同样惊人。这次的" 天工 3.0" 采用了更时髦的 MoE(Mixture of Expert)架构,是全球最大规模的开源 MOE 大模型。通过混合多个专家模型,实现了性能的大幅跃升。
其中最令人惊喜的,是全新的 AI 音乐功能" 天工 SkyMusic",它基于昆仑万维 " 天工 3.0" 超级大模型打造,是国内首款、同时也是目前国内唯一公开可用的 AI 音乐生成大模型。集歌词、曲调、编曲、演唱,直接一条龙服务,是中国首个音乐 AIGC SOTA,下载 APP 首页就能体验到。
不过对咱们普通用户来说,关心的无非就是 AI 助手够不够智能,够不够好用,体验感如何。咱们测过那么多产品了,今儿就来验验它成效如何?
(PS:目前 " 天工 3.0" 和 " 天工 SkyMusic" 开放公测了!大家可以在 APP 下载体验。)
第一部分:天工 SkyMusic 广告音乐也能生成!
说到 天工 SkyMusic,有必要说说它的原理:
「天工 SkyMusic」采用音乐音频领網域类 Sora 模型架构,Large-scale Transformer 负责谱曲,来学习 Music Patches 的上下文依赖关系,同时完成音乐可控性;Diffusion Transformer 负责演唱,通过 LDM 让 Music Patches 被还原成高质量音频,使得「天工 SkyMusic」能够支持生成 80 秒 44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领網域效果极佳。
天工 SkyMusic 技术原理图
举例解释原理
别急别急,咱用一个例子让你秒懂天工 SkyMusic 是怎么实现的:
你可以把天工 SkyMusic 想象成一个超级厉害的 " 作曲机器人 "。这个机器人有三个部分:编码器(Encoder)、神经网络(DiT)和解码器(Decoder)。
编码器就像机器人的 " 耳朵 ",它会仔细 " 聆听 " 海量的歌曲,从中学习各种音乐元素,比如音符、节奏、音色等等。学习的结果就存在它的 " 大腦 " 里,也就是中间的神经网络。
当你想创作一首新歌时,就给机器人输入歌词。这时候,它的神经网络 " 大腦 " 就开始飞速运转,根据你的歌词,从 " 记忆 " 中找出最合适的音乐元素,再将它们巧妙地组合在一起。这个过程就像我们人类作曲时的灵感迸发。
最后,解码器像机器人的 " 嘴巴 ",将神经网络输出的音乐信息还原成我们耳朵可以听到的音频。这样,一首崭新的歌曲就诞生了!
简单来说,编码器负责 " 学习 ",神经网络负责 " 创作 ",解码器负责 " 合成 "。这三个部分紧密配合,不断从海量音乐中学习,再创造出无限可能的全新音乐。这就是天工 SkyMusic 的 " 魔力 " 所在。
所以,天工 SkyMusic 并不是简单的拼凑,而是真正意义上的用 AI 进行音乐创作。目前,它还在起步阶段,未来随着算法更新、训练数据的丰富,创作能力必将越来越强大。我们有理由期待,AI 会为音乐创作带来一次革命性的突破!
别急,让我用一个活泼的比喻来解释天工 SkyMusic:
想象有个作曲神器,它由三部分组成:编码器、神经网络和解码器。
编码器就像是这个神器的 " 耳朵 ",专门听遍全球的歌曲,学习里面的音符、节奏和音色。
然后,你只需一句歌词,它的神经网络就像灵感全开,迅速从记忆库里找到最匹配的音乐元素,再巧妙地创作成曲。
最后,解码器将这些信息转换成音频,一首新歌就这样诞生了!
天工 SkyMusic 能根据输入的歌词,自动生成包括旋律、和声编曲在内的完整歌曲,整个过程仅需几分钟。
我们尝试用天工 SkyMusic 改编了一些经典神曲和古诗词,不仅歌词韵味十足 , 连整体旋律都洋溢着浓浓的中国风。
中国风音乐:以古诗词为词,用传统乐器为曲,看看效果如何:
行路难开头国风乐器直接把我带入到行路难这首诗当中,男声一进入则让人感觉一种安定,不过后面的唱和旋律部分差了点儿意思。
音乐魔改:儿时回忆快乐星球片尾曲《月亮船》,上周暴雪国服回归,很想创作一首暴雪版《月亮船》,开头有点儿那味儿了,不过歌词和旋律需要再打磨打磨。真真儿是降低音乐创作门槛,有手就会啊!
这首歌真是给所有暴雪游戏粉丝带来了一波怀旧风。
歌词里点到了《魔兽世界》、《炉石传说》等经典,一听就勾起了无数回忆。不过,旋律和编曲方面还能再火一些,让人更有热血沸腾的感觉。AI 演唱的部分也确实需要再逼真点,特别是在情感的表达上。
儿童音乐:在教育领網域,儿歌可谓是是担当了让娃们 " 乐呵呵 " 的利器,这不,系统刚给我图鉴一首儿歌,我就赶紧跑来天工 SkyMusic 试试看。特别适合满身艺术细胞的爸妈们,赶紧给娃做一曲!
这《小雨点》这首儿童歌曲真的太朗朗上口了!!旋律简单易学,孩子们一听就能跟着哼唱。而且歌词里用了很多生动的自然画面和拟声词,非常有趣,能吸引孩子们的注意力。(PS:封面也特别的应景。)
除了以上几种类型,天工 SkyMusic 还能用于广告歌制作等商业领網域,我们创作了几首由它创作的品牌主题曲,不得不说 AI 在这方面的发挥已经十分出色。
天工 3.0 专属音乐
歌词用粤语唱出来更有感觉,这首歌参考的是张靓颖的《我的梦》,也是作为一首宣传曲,在音色旋律上是有借鉴到。需要加强的是在保持人声自然流畅的同时,还要能够传达出歌词中的深度和力量。
天工 SkyMusic 专属音乐
以上种种案例,都充分展现了天工 SkyMusic 强大的音乐生成能力。它不仅可以根据不同的需求和场景,快速生成相应风格的音乐,而且生成的音乐在编曲、和声、人声等方面都有相当不错的表现,堪称是一个极具创造力的 AI 音乐助手。
天工 SkyMusic 的出现,无疑极大地拓宽了音乐创作的边界。有了它的加持,无论你是音乐爱好者、音乐从业者,还是广告、教育等领網域的从业者,都能轻松创作出令人耳目一新的音乐作品。可以说,天工 SkyMusic 为全民音乐创作时代铺平了道路。
不过,我们也要看到,尽管天工 SkyMusic 展现了惊人的音乐创作潜力,但它终究只是一个工具。在音乐创作这件事情上,人的主观能动性和创造力仍然是不可或缺的。天工 SkyMusic 提供的更多是灵感和素材,真正将其塑造成打动人心的作品,还需要人的二次创作。
因此,与其担心 AI 会取代人类音乐人,倒不如思考如何让人机协作、相得益彰。AI 负责提供想象力,而人负责赋予情感和温度,这样的 "AI+ 人 " 组合,也许会碰撞出前所未有的音乐火花。
第二部分:天工 3.0 全方位测评
接着我们用天工 3.0 来进行一次 " 童年回忆杀 "。
首先利用它强大的中文理解和创作能力,让天工 3.0 给数学公式编写顺口溜,做文言文阅读理解,然后再做几幅水墨画,看看是否全能!
我用天工学数学!
从中文理解和生成效果来看,天工 3.0 对中文语言节奏、韵律的掌握还不错,生成的顺口溜儿我都想背了!
我用天工做文言文阅读理解!
为了更全面、系统地测试 " 天工 3.0" 的中文理解和创作能力,咱也提升点儿难度,我们选取初中课本中常见的 2 篇文言文,考察天工学对文言文字词句理解、文章主旨把握、修辞手法分析、作者情感体悟等方面的能力。
结果令人惊喜,天工 3.0 不仅准确领会了诗词背后的深意,还能用生动的现代语言进行阐释,展现出对人类语言细微差别的把控能力。
我用天工让古诗学画画!
再来看看它的文生图能力如何,首先是让它根据古诗作画,对于给到的词中理解到位,第一句的效果画的很不错。
然后点开图拍之后发现还有扩图和二次重绘的功能,功能上有点儿 MJ 那味儿了。
咱们再更新一下,作为一款与时俱进的 AI,天工 3.0 当然也要经受中文高质量语料 " 弱智吧 " 的洗礼。
面对各种歪理邪说和腦筋急转弯,它都能迎刃而解,甚至还能就梗图进行幽默点评,再次验证了其过硬的语义理解和灵活的内容生成水平。
对于弱智吧的提问,天工 3.0 中规中矩,逻辑清晰,没出什么大错。
弱智吧提问
再来看看 AI 识图功能,这部分就只能识别出里面文字了,似乎它的功能并不在于此。
看看天工怎么说的:
再来一张试试:
看这回答,AI 识图对梗图不太友好,只能理解到字面意思。
相反对于摄影赏析、古诗创作等功能属性较强的图片更加友好,看来是术业有专攻!
AI 识图:摄影赏析、古诗创作
第二,多模态能力的展现
接下来我们我们让天工 3.0 为一个假想的地震救援行动出谋划策,通过三问三答让它快速生成了一套覆盖资源调配、路径规划等全流程的救援方案。
这三问三答展示了模型在处理复杂问题(如地震救援行动)时的强大逻辑推理和全面规划能力,能详尽分解任务并考虑多维度因素。优点在于能详细覆盖救援的关键环节和多方面的技术应用,缺点则是在某些情况下可能过于详细,导致信息过载,不够简洁。
再来一些高难度的,让它做一个股市分析和预测:
这段代码实现了一个基本的股票价格监控应用,能够让用户通过一个简单的界面输入股票代码,查看实时价格。它的好处在于界面直观易用,而且加入了错误处理机制,确保在遇到问题时能给出提示,避免程式崩溃。
第三,再来测测他的搜索能力如何?
天工 AI 搜索,不仅在在原本的基础上做了加强,搜索的更佳精准,而且平时还能推送热点,最快接触到当下的时事新闻,这一点对于 2G 网络的伙伴非常友好。
以搜索:贪吃蛇的游戏代码为例
先来看第一种:传统模式。
它的回答提供了一个基本的贪吃蛇游戏代码实现,使用 Python 的 curses 库。虽然代码涵盖了游戏的基础功能,包括初始化、输入处理和游戏逻辑,但存在一些语法和逻辑错误,这影响了代码的准确性和可执行性。信息来源相对单一,主要是一个直接的代码示例,缺乏深入探讨或优化的部分。
再看第二种:增强模式,效果确实比传统模式好上不少。
这个模式在内容丰富度和准确性方面表现较好,详细介绍了使用 Python 和 C++ 实现贪吃蛇游戏的方法。它涵盖了环境初始化、游戏逻辑、渲染显示以及用户输入处理,提供了全面的信息,适合初学者和有经验的开发者。同时,使用 pygame 库增强了图形处理和事件管理的能力,使得实现更加高效和可靠。
最后来看第三种:研究模式。这个模式在前两种的基础上在信息源、信息丰富度上有着不小提升。
详细来看,研究模式搜索最为全面和深入,不仅提供了多种编程语言的基础代码示例,还深入探讨了性能优化、算法改进和跨平台实现等高级技术。这种模式的信息来源非常丰富,适合那些希望深入了解和扩展游戏功能的开发者。性能优化的讨论尤其有助于提高游戏的响应速度和流畅度,使其更适合现代游戏开发需求。
同时还有大纲和思维导图的生成,对于信息来源也是一目了然,缺点是因为生成内容长,所以生成速度也会相应拉长。
不得不说搜索这块儿,天工 3.0 还是有几把刷子的!
第四,创建智能体部分
这部分是老生常谈了,不过天工 3.0APP 里面有个标签儿吸引了我的注意,就是元宇宙,打开一看原来是 " 角色扮演 " 游戏,那基本上也跟智能体是一家人了。
智能体页面
在天工 3.0 中,有两种方式来创建智能体,对话式和表单式:
对话式创建有 " 智能体创建小助手 " 在手,更适合目前对智能体不太了解的朋友们;
而表单式创建则更加自定义,我做了一个国风音乐生成助手,效果如下:
结尾
整个测试下来," 天工 3.0" 确实比 " 天工 2.0" 强了不少!看来是下了硬功夫的。而且它还特别打造了 " 天工 SkyMusic" 功能,让我们在音乐领網域实现创作自由!不过,天工 SkyMusic 目前虽然仍处于起步阶段,但已经让很多用户感受到了音乐创作的乐趣。未来会随着持续优化不断完善,打造一个专业且易用的全民音乐创作平台。