这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!
- 2025-03-27 13:24:00
- 刘大牛 转自文章
- 238

家人们震惊了!现在 AI 成精啦,不仅能写能画,现在连唱功都是格莱美级的了!
魅惑空灵电音女声,也太好听了吧!
酷佬街头说唱,怎么有一股八方来财的味儿?
强混嘹亮欧美女高,像极了阿黛尔~
极端的金属核嗓也不在话下!
日韩女团风,日韩英三语无缝切换!
还有这首 AI 新编版《世界赠与我的》!模仿王菲空灵仙嗓也太到位了吧,完全不一样的旋律,一样的嘎嘎好听,宁静中带一点哀伤的意境拿捏得简直了!
模仿碧梨的慵懒声线,确定不是碧梨本人在唱?
网友爆改 rap 版 YouTube 亿播神曲《Plastic Love》:

论文标题:YuE: Scaling Open Foundation Models for Long-Form Music Generation 项目地址:https://github.com/multimodal-art-projection/YuE Demo:https://map-yue.github.io Arxiv:https://arxiv.org/abs/2503.08638

其中大的 Stage-1 LM 联合建模文本条件和粗粒度音频离散 token 序列。 而小的 Stage-2 LM 基于大 LM 给出的粗粒度离散 token 合成剩余的(残差)细粒度 token。 最后得到的多码本离散音频序列会送入 tokenizer decoder 重建回音频,并送入一个轻型上采样器重构 44.1khz 的音频。


如果使用 ΔWER 来表示语音内容重构损失,那么利用分离先验得到的人声轨(下左图橙)的损失显著小于合轨(下左图蓝),甚至在极端的金属风格下也能维持较低的语音内容重构损失。 基于 Dual-NTP 训练的 LM 在相同的训练成本下也表现出比 NTP 更低的 loss(下右图橙 vs 蓝)。









项目地址:https://github.com/multimodal-art-projection/YuE Demo:https://map-yue.github.io Arxiv:https://arxiv.org/abs/2503.08638 B 站讲解:https://b23.tv/YaYtvVi
https://huggingface.co/spaces/fffiloni/YuE https://yueai.app/zh/playground https://yueai.ai
发表评论
文章分类
联系我们
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |