还记得半年前在 X 上引起热议的肖像音频驱动技术 Loopy 吗?升级版技术方案来了,字节跳动数字人团队推出了新的多模态数字人方案 OmniHuman, 其可以对 任意尺寸和人物 占比的单张图片结合 一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。
如对下面图片和音频:








论文项目主页:https://omnihuman-lab.github.io/ 技术报告:https://arxiv.org/abs/2502.01061



还记得半年前在 X 上引起热议的肖像音频驱动技术 Loopy 吗?升级版技术方案来了,字节跳动数字人团队推出了新的多模态数字人方案 OmniHuman, 其可以对 任意尺寸和人物 占比的单张图片结合 一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。
如对下面图片和音频: