音乐界迎来自己的DeepSeek!全球首个音乐推理大模型Mureka O1上线,超越Suno

2025-03-26 17:01:00
刘大牛
转自文章
241
2025 年第一款现象级的 AI 音乐爆品,就这么华丽丽地来了!


国产大模型在技术实力上,又一次站在了世界前沿。


3 月 26 日,国内「All in AGI 与 AIGC」的科技公司 —— 昆仑万维,发布了最新音乐大模型 Mureka V6 和 O1,给全球音乐圈带来了不小的震撼。
最值得关注的是,昆仑万维带来了 全球首个引入 CoT 的音乐推理大模型 Mureka O1。在文本、视觉任务之外,「强推理、慢思考」的风终于吹到了音乐生成领域。


得益于生成过程中加入 思考与自我批判能力,前者使得生成音乐的风格流派更符合用户预期、音乐整体结构和连贯性更强、旋律更好听,后者通过自动、客观的评分来验证生成曲风、结构和旋律的好坏。如此一来,Mureka O1 创作的音乐质量大幅度提高,达到了 SOTA 级别的生成效果。


在与 Suno V4 的直接较量中,Mureka O1 不仅丝毫不怵,还在主客观评测的多项指标上完成了超越。其中在主观评测中,Mureka O1 的整体听感超过了 Suno V4,人声(Vocal)、背景音乐(BGM)和混音(Mixing)质感明显超越了后者,并在配器丰富度(Instrumentation Richness)、作曲结构(Composition Structure)和旋律动机质量(Motif Quality)方面实现了显著提升。
图片
对于客观评测,包括发音准确率、音乐片段连贯性、文本相关性以及包括内容享受度、内容可用度、制作复杂度在内的制作质量指标上,Mureka O1 相较于 Suno V4 均实现了不同程度的领先。
图片
图片
音乐质量更高的同时,生成速度同样更快了。从完整歌曲生成时长来看,Mureka O1 甚至要比 Suno V4 缩短了 1/2。
图片
这意味着,随着思考能力的加入,AI 音乐生成在创作逻辑性与连贯性、创作自由度与个性化、情感表达、生成速度等多个方面迈入一个全新的阶段。


Mureka O1 依托的是昆仑万维此次 升级的音乐生成基座模型 Mureka V6,不仅支持 10 种语言的歌词和歌曲生成,同时支持纯音乐生成、音色克隆等功能。可以说,国产 AI 音乐生成产品能玩的花样更多了。此外,Mureka V6 还创下了 两个「全球前列」


  • 全球首批开放(五种)API 服务的高质量 AI 音乐生成平台。开发者和音乐平台可以将 Mureka 的音乐生成能力无缝集成到自家产品或平台中,加速 AI 音乐创作的应用并实现商业价值。
  • 全球首个开放模型微调功能的 AI 音乐生成平台。用户借助 Mureka 基础模型可以训练符合自己需求的专属音乐模型,增强了 AI 音乐创作的灵活性和个性化,在满足具体音乐场景需求的过程中为音乐人、制作人乃至品牌和游戏开发者提供定制化的 AI 音乐解决方案。


目前,Mureka O1 和 Mureka V6 已经全面上线,感兴趣的小伙伴可以在 Mureka 官网体验。


Mureka 官网地址:https://www.mureka.ai


上手实测
AI 也有潜力成为神曲制造机


Mureka 的创作界面如下图所示,我们可以自由切换 Mureka V6 和 Mureka O1,选择最适合自己想要生成的音乐风格的模型版本。
图片
我们首先测试了一番 Mureka V6。首次实现支持 10 种语言之外,Mureka V6 生成的人声更清晰、编曲更出色、歌词也更准确。


都说音乐无国界,但歌手的口音不标准非常影响歌曲听感,换成 Mureka,这个问题就完全不存在了。如此一来,全世界都能听到你灵感的回响。我们让 Mureka V6 根据同一段中文提示词创作中文、英文和日文歌,这是 Mureka V6 的答卷:


提示词:一首悠闲、梦幻的浪漫歌曲、适合跳舞,充满感染力的能量、强烈的节拍和歌词,歌词是关于春天、美好的生命,时间飞逝,珍惜春光的中 / 英 / 日文歌。

旋律清新,尤其是这首日文歌,不标明是 AI 生成,还以为是某个热播动漫的片头曲呢!


Mureka V6 的另一个亮点是 支持生成纯音乐
图片
人工智能站视频号每天都在面对一个刚需,要为视频添加 BGM 来丰富内容。输入提示词:「带有合成器音波的充满活力的电子流行音乐,适合科技向视频」,我们得到了这样的结果:
感觉 Mureka V6 生成的这首,质量丝毫不逊色于平时在无版权网站上精心挑选半天后选出的那首最佳 bgm。


加持了思考能力的 Mureka O1 就像是一个口袋里的专业音乐工作室。大部分 AI 生成的音乐都有几个通病:旋律特别简单,或者是听感奇怪的和弦凑够了时长,不符合歌曲的「起承转合」结构。


Mureka O1 的思维链能力为它注入了连贯的中间推理和决策步骤,赋予其生成更具深度和层次感的音乐的能力。与 V6 以及其他音乐生成模型相比,Mureka O1 的编曲更加丰富,旋律起伏自然,结构也更加合理,真正做到了「有理有据」的音乐创作。


它的操作简单到甚至不需要提示词,就能跳过歌词、编曲、录音和混音的复杂步骤,享受给自己写歌的乐趣。我们只需要选择简单模式,在输入框内输入想要的风格,或者点击右下角的骰子,随机摇出一些风格选项。
图片
等待一下,就能得到一首听起来有望冲进 billboard 年度前 200 的抒情歌:
当然,我们也可以切换到 高级模式,输入歌词,再添加一些歌曲描述:
图片
图片
在别人还在用千篇一律的 bgm 发短视频的时候,用上 Mureka O1 的用户,每个想要记录的瞬间就拥有了量身打造的旋律:
Mureka O1 不仅简化了复杂的音乐编辑任务,还保留了 专业级的控制选项。无论你是经验丰富的音乐人,还是五线谱都看不懂的小白,它都能在你的工作流中上大分。


首先是参考歌曲功能。都说 AI 生图需要抽卡,其实 AI 作曲也一样,不是每次结果都能让人满意。


相比图像,单纯用语言更难描述出音乐的感觉,但插上耳机,听到重金属摇滚和 rap 之间的那段古典钢琴,我们就能立刻辨认出:「这就是周杰伦的感觉!」


Mureka O1 还支持上传歌曲,作为 AI 的创作参考,让我们的脑洞不再受技术限制。


想知道华语流行音乐天王为《APT》作曲会不会更高级?打开 Mureka O1 试试就知道了,操作也很简单。


第一步,先输入《APT》的歌词,再点击参考歌曲,上传周杰伦的一首代表作。在此,我们选择了《青花瓷》。
图片
图片
按下创作按钮,就可以静待中国风满满的《APT》出炉了。
听一下效果,编曲层次丰富,还设计了合声,就连困扰 AI 音乐生成已久的人声不清晰问题也解决了。人声质感更为自然,整体混音设计也更加到位。


此外,Mureka O1 充分考虑到了歌曲创作的自由度,我们可以右键点开菜单,选择局部重新生成或延长,延长 AI 灵感乍现的一瞬间。


编曲讲究「ABAAB」的结构,正好这首《春の踊り》前奏很不错,想延长几个小节来作「Intro」。我们不需要再跳转到音乐编辑软件中截取,就可以得到这样的效果了:
作为全球首个正式开放五种 API 服务的音乐生成模型,Mureka 确实也是把探索深度拉满了。接入 API 后,就能在 Mureka 的基础上,微调专属音乐模型。音乐人、制作人、品牌和游戏开发者想要定制 AI 音乐,也更加自由和高效。


除了音乐,Mureka API 还支持日常对话,其中预置了多种音色,结合音色克隆技术,连播客节目也能自己做。


这波体验下来,我们最大的感受是:刚上手时,零基础也能轻松搞定专业效果;深入探索,成熟的工具链蕴含无限可能,人声的清晰度和旋律的听感都已经超越 Suno,神曲也可信手拈来。


CoT 思考能力加身
音乐生成迈入 O1 时代


在 AI 音乐生成中引入 CoT 思考能力,为什么会对生成的质量提升如此之大?从昆 仑万维公开的技术报告以及对 Mureka 算法负责人 Max 的专访中,我们对 Mureka O1 的先进性有了深刻的洞见。
图片
项目主页:https://MusiCoT.github.io/


在谈到为何要在音乐生成加入思考能力时,Max 表示,以前的音乐生成模型(比如自回归 AR 模型)更多采用的是类似语言大模型中的「下一个 token」预测范式,这不太符合人类音乐创作和制作的方式与过程。因此,虽然 AR 模型在高保真音乐生成中展现出了卓越的能力,但这种偏离人类创作模式的做法可能会限制生成结果的结构一致性和音乐性。


针对 AR 模型存在的局限性,昆仑万维打造出了一套与众不同的解法,以 MeLoDy 音乐生成框架为主干并受到语言建模中 CoT 提示技术的启发, 为音乐生成量身打造了一种新颖的 CoT 提示词技术 —— MusiCoT


不同于文本与视觉任务,音乐生成中引入思考能力需要克服一些不一样的技术难点,包括:1)连续复杂的音频信号输入、2)跨模态的文本输入到音频输出、3)高维特征的学习与高维数据的处理、4)音乐理论知识的融入以及 5)实时生成质量与速度的权衡。因此,为了在 AI 音乐生成中发挥作用,MusiCoT 针对这些难点做到了有的放矢,并形成了自己的技术优势。


利用 MusiCoT,AR 模型的生成范式发生了变化,引入了中间推理。模型可以先定义好整体音乐结构以及与生成作品相关的一些元素(比如风格、乐器等),然后再生成音频 token,从而更加贴合人类的创作模式。


同时,通过使用 对比语言 - 音频预训练(CLAP)架构来定义音乐思维链,MusiCoT 在同一个空间中对文本与音频进行学习和训练,实现二者更强的匹配性,使音乐结构(如乐器编排)得到分析。基于这种思维链的可分析性,可以将推理到的 CLAP 特征与指定的文本进行空间上的距离分析,并让思维链过程中模型创作的曲风、乐器、调性等变得透明可知。


此外,MusiCoT 可以自然地为 AR 模型提供音乐参考功能,将输入的可变长度的音乐音频作为可选风格参考。一方面可以将参考歌曲变成 CLAP 中的音频嵌入,然后直接提取来替代要推理的思维链过程,这样跳过中间推理直接过渡到音频生成;另一方面引入残差矢量量化(RVQ)对音频向量信息进行量化处理,让音频信息更模糊,从而更容易规避直接抄袭的风险。最后,MusiCoT 相较于其他 CoT 方法实现了可扩展性并且可以不依赖人工标记的数据。


下图为原始 AR 音乐生成(上)与基于 MusiCoT 的 AR 音乐生成(下)流程对比,并以乐器编排为例说明。其中箭头的不同颜色表示相应乐器的不同强度,颜色越深、乐器强度越高,反之亦然。
图片
接下来,我们将对 MusiCoT 的实现过程进行逐一分解,主要由以下三个阶段组成


首先是 将 CLAP 音频嵌入视为可分析的音乐思考。MusiCoT 并没有使用自然语言来描述音乐内容,而是提出使用对比训练的跨领域嵌入模型(即 CLAP)来表征中间音乐思考。具体来讲,CLAP 模型将每 10 秒的音乐音频编码为了一个连续值嵌入。因此,给定一首 3 分钟时长的典型歌曲,可以从 CLAP 中获得一个音频嵌入序列 图片并作为音乐思维链,其中每个嵌入都对应一段 10 秒的音乐片段。


其次是 通过预测由粗放到精细的展平 RVQ 来实现更稳定的 MusiCoT 训练。建立音乐思维链之后,又出现了一个重大阻碍:由于 CLAP 音频嵌入为高维连续特征,典型训练目标(如均方误差损失、L1 损失和对比 infoNCE 损失)在音乐生成中皆效果不佳。


为了克服 MusiCoT 中的训练问题,昆仑万维设计了一种基于 RVQ 的粗放到精细 tokenization 方法,具体如下图所示。RVQ 模型由 L 个码本组成,而 RVQ token 以粗放到精细的顺序被展开以进行 LM 预测,较粗放的 token(靠前码本)总是在较精细的 token(靠后码本)之前预测。


不过,与传统 CoT 将复杂任务拆解为更小步骤不同,音乐生成需要作为一个整体来看待(因为任何一块的局部修改都可能影响整体的音乐性效果)。昆仑万维对中间音乐思考的定义满足了这一标准,每个 token 序列与生成的整体音乐片段实现了精确时间对齐。此外,L 个码本可以看作是 L 个粒度级别,生成这些中间 token 类似于从粗放到精细的方式来设计音乐结构。
图片
在实际训练中,语义 LM 将展平 CLAP RVQ token 作为了额外的预测目标,如下图所示。与典型的 CoT 训练类似,这些预测的 token 采用了与音频 token 相同的处理方式,即用来计算交叉熵损失。唯一的区别是添加了两个新的特殊 token(<cot_bos> 和 < cot_eos>),以预测何时从生成 MusiCoT token 转换为音频 token。


根据 CLAP 嵌入的性质,预测的 RVQ token 可以在联合语言音频潜在空间中进行分析,因此可以检查音乐音频中每 10 秒片段的音乐特征。以乐器编排为例,通过计算生成嵌入与不同乐器的文本嵌入之间的余弦相似度,对乐器编排进行分析,从而了解不同乐器在生成的音乐中随时间切换的情况。
图片
最后是 MusiCoT 的双重采样策略。在 MusiCoT 中,来自三个领域的 token,即文本 token、展平 CLAP RVQ token 和音频 token,被集成到了一个 LM 中。这引发了一个重要的采样策略问题:应该对后两种模型预测的 token 使用相同的采样方法还是采用不同的采样策略?


昆仑万维提出了两种新颖的 MusiCoT 采样配置。一个是 双温度采样,选择温度值作为采样超参数对于提升语言模型性能至关重要,在音乐生成领域同样如此。MusiCoT 采用了双温度采样方法,即为语义 LM 配置了两组采样温度,一组用于采样展平 CLAP RVQ token,另一组用于采样音频 token。双温度采样的有效性得到了实验验证。


另一个是 双尺度无分类器指导。无分类器指导(CFG)是扩散生成模型常用的一种方法,在 AudioGen 和 MusicGen 等语言建模中取得了成功。MusiCoT 设计了一种可以改变对数概率的双尺度采样策略,公式如下:
图片
得益于以上技术先进性,MusiCoT 在主客观指标中持续产生出色的生成性能,实现了超越当前 SOTA 音乐生成模型的效果。


结语


去年 3 月,Suno V3 横空出世,成为一款现象级的 AI 音乐生成产品。用户可以使用简单的提示词创建从歌词、人声到伴奏的所有内容,一方面降低了音乐创作门槛,让门外汉也能体验一把当音乐制作人的乐趣;另一方面,专业音乐人开始探索将 AI 工具融入到音乐创作过程中,提升效率,推动 AI 在音乐领域的应用和发展。


此后,音乐大模型迈上了快车道,有实力的玩家开始在这个领域狂奔。在国内,昆仑万维入局非常早,并且拉开了与其他竞品厂商的差距。基于早期在音乐赛道上的积累,2024 年 4 月昆仑万维推出了 AI 音乐商用创作平台 Mureka V1,逐渐成长为了这条赛道的行业引领者。


截至目前,Mureka 访问用户遍布全球 100 多个国家和地区。并且,昆仑万维围绕 Mureka 形成了多样化的变现路径,包括 C 端用户付费、B 端合作、API 服务和模型微调能力。


此次推出的 Mureka V6 以及思考能力加身的 Mureka O1,在带来更高生成质量、更多样创作模式的同时,无疑会巩固昆仑万维在 AI 音乐生成领域的领先性,并进一步促进 AI 音乐创作的普及,为音乐产业带来了更多的创新和盈利机会。


未来,昆仑万维会继续加大在模型能力上的投入,让音乐大模型保持全球第一梯队。同时,依托 Mureka 基座模型可以期待更丰富的音乐功能,包括音乐生成的二次编辑、歌曲二创等。


当然,在持续优化和迭代 Mureka 功能之外,昆仑万维同样看重 AI 音乐创作的开发者生态与合作伙伴建设。如今的大模型竞争不再只是技术层面的较量,更是生态的比拼,更强大、更活跃的 AI 生态会助力降低开发门槛、加速各行业的深度应用落地和扩展商业模式,从而在市场竞争中立于不败之地。


在「实现通用人工智能,让每个人能够更好地表达自我」的使命驱使下, 昆仑万维近年来立足于「AI 前沿基础研究 —— 基座模型 ——AI 矩阵产品 / 应用」的全产业链,在 AIGC 创作领域积极布局,陆续推出了涵盖文本、视频和音乐等多个方面的创新产品。


AIGC 的美好想象正一步步走向现实。


最后来欣赏一段全网首发的《Mureka》AI 音乐人 MV,歌手为 Mureka。该作品由 AI 生成,其中音乐由 Mureka 生成,视频由 SkyReels 技术支持生成。
产业 Mureka V6 Mureka O1 昆仑万维
发表评论
评论通过审核后显示。
文章分类
联系我们
联系人: 透明七彩巨人
Email: weok168@gmail.com