免费AI“神器”系列第七弹：华为首个AI影像生成模型论文公布；克隆数字分身应用近期爆红

今天小编分享的互联网经验：免费AI“神器”系列第七弹：华为首个AI影像生成模型论文公布；克隆数字分身应用近期爆红，欢迎阅读。

近期，生成式人工智能（AIGC）领網域又涌现出多款创意十足的新应用。

今天，钛媒体 AGI 梳理了免费 AI " 神器 " 系列第七弹，共五款，其中不少产品再一次拓宽了我们对 AI 的想象力。

华为首个 AI 影像生成模型—— PixArt- Σ

音乐生成模型—— Chat Musician

克隆自己的数字分身—— D-IDAgent

可以读唇语的大模型框架—— VSP-LLM

医学检索增强生成（RAG）框架—— MIRAGE

1、华为首个 AI 影像生成模型 PixArt- Σ 亮相

产品信息：日前，华为诺亚方舟实验室团队在 arxiv 平台上发布多篇论文，展示华为首个 AI 影像生成模型 PixArt- Σ 技术，参数规模为 6 亿左右，其采用与 Sora 的 Diffusion Transformer ( DiT ) 架构，可直接生成 4K 分辨率的 AI 影像。

产品功能：华为团队在论文中表示，相比其前身 PixArt- α，新的 PixArt- Σ 在训练效率、数据质量、影像标题配对、影像生成质量等方面都有巨大提升，提供明显更高保真度的影像，并改进了与文本提示的一致性。同时，PixArt- Σ 以显著较小的模型规模实现了优于现有文本到影像扩散模型，如 SDXL ( 26 亿参数 ) 和 SD Cascade ( 51 亿参数）的影像质量和用户提示遵从能力。华为团队在论文中强调，新的 PixArt- Σ 可生成 4K 影像能力，从而将有效增强电影和游戏等行业中高质量视觉内容的制作。

体验地址：https://pixart-alpha.github.io/PixArt-sigma-project/

2、可以理解和生成音乐的大语言模型—— Chat Musician

产品信息：Chat Musician 是一个能理解和生成音乐的开源大语言模型，通过持续预训练和微调 LLaMA2，采用文本兼容的音乐表示方式—— ABC 符号，使模型能够像处理语言文本一样理解和生成音乐。

产品功能：首先是音乐生成功能，ChatMusician 可以根据给定的文本提示、和弦序列、旋律线索、音乐主题等，自动生成结构完整、风格多样的音乐作品，性能超越 GPT-4 的基线。

其次是音乐理解功能，ChatMusician 可以理解和分析音乐理论的各个方面，如和声分析、旋律结构、音乐形式等。在专为大学级音乐理解基准测试 MusicTheoryBench 上，ChatMusician 在零样本設定中超过了 LLaMA2 和 GPT-3.5，展示了其在音乐理论理解方面的优异性能。

此外，ChatMusicia 还提供了大规模的音乐语言语料库（MusicPile）、音乐理论基准测试（MusicTheoryBench）、模型代码和在线演示，以供研究和教育使用。

项目演示：https://shanghaicannon.github.io/ChatMusician/

论文地址：https://arxiv.org/pdf/2402.16153.pdf

3、克隆自己的数字分身—— D-IDAgent

产品介绍：D-IDAgent 是生成数字人平台 D-ID 推出的一项可定制 AI 化身功能，用户只需通过一张照片就能生成属于自己的 AI 数字人。

产品功能：用户可以通过上传一张照片或一段语音就能生成属于自己的 AI 数字人，并且生成的数字人可实现人性化互動。在接受用户指令后，数字人可以通过面部表情和手势以及多种语言进行回应，提供类似真人的面对面沟通体验。此外，D-IDAgent 可以通过链接或嵌入到网站上与他人共享 AI 代理。

据悉，D-ID Agent 利用检索增强生成 ( RAG ) 技术，能够更加了解用户的环境并能在两秒内提供超过 90% 的准确率响应查询，支持多种主要语言，可满足不同用户生成需求。

D-ID Agent 的使用场景丰富，电商行业可利用数字人进行广告代言、直播、产品推广和营销；教培行业可利用数字人生成数字教师进行线上授课；视频创作者可以用数字人代替真人拍摄，从而降低视频制作成本，提升视频制作效率。

付费方面，D-ID Agent 有 14 天免费试用期，超过试用期有三种按月付费标准，不同的付费标准对应不同的使用功能，比如在生成视频时长，支持插件和视频水印方面都有区别。

体验地址：https://studio.d-id.com/

4、可以读唇语的大模型框架—— VSP-LLM

产品信息：VSP-LLM 是一款基于 AV-HuBERT 模型开发的语言模型框架，该框架将视觉语音处理和大语言模型（LLMs）进行结合，旨在利用 LLMs 的上下文理解能力来提高视觉语音识别和翻译的准确性和效率。

产品功能：VSP-LLM 可以通过观察视频中人物的唇部动作，识别和理解说话内容，并将这些内容直接翻译成目标语言文本。同时，利用先进的视觉语音识别技术，结合大语言模型的上下文理解能力，VSP-LLM 通过自监督学习，可以智能识别和去除视频中的冗余信息，避免内容重复，提升内容生成速度和准确性。

GitHub：

https://github.com/sally-sh/vsp-llm?tab=readme-ov-file&continueFlag=a18ff0efaae82b7b920d78ac725952b5

论文：https://arxiv.org/abs/2402.15151v1

5、医学检索增强生成（RAG）框架—— MIRAGE

产品信息：MIRAGE 是一个基于搜索增强生成（RAG）的框架，旨在提高医学问答（QA）任务中的性能。

MIRAGE 框架包含来自生物医学领網域五个常用 QA 数据集的 7663 个问题，通过在工作中引入的 MedRag 工具包对不同语料库、检索器和骨干 LLM 的 41 种组合进行了超过 1.8 万亿个提示标记的大规模实验。

产品功能：首先是增强医学问答准确性，通过检索增强生成（RAG）技术，MEDRAG 利用最新可靠的医学文档信息来辅助大型语言模型（LLM），提高医学问答任务中的准确性和可靠性。

其次是系统性评估医学 RAG 系统，MIRAGE 基准为医学问答领網域的检索增强生成（RAG）系统提供了一个系统性评估平台。这种评估有助于识别哪些方法在处理医学信息时最有效，特别是在准确性和可靠性方面。

再次，提供医学专用工具包，MEDRAG 工具包集成了多个领網域特定的语言资料库、搜索器和大型语言模型（LLM），支持研究人员在医学问答任务上进行全面的实验和评估。这些组件包括专门为医学领網域设计的文档库、针对医学信息优化的搜索算法以及适用于医学问答的 LLM。

最后，零样本学习能力，MEDRAG 特别关注 RAG 系统的零样本学习能力，即在没有给出具体例子的情况下，系统能够解答新的、未见过的医学问题。通过提高系统的零样本学习能力，可以确保医学问答系统即使在缺乏特定数据的情况下也能提供准确的答案，显著提高系统在实际应用中的灵活性和有效性。

论文地址：https://arxiv.org/abs/2402.13178

GitHub 地址：https://github.com/abi/screenshot-to-code

（本文首发钛媒体 App，作者｜章橙，编辑｜林志佳）