李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪
- 2024-12-18 13:40:00
- 刘大牛 转自文章
- 231
论文标题:The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion
论文地址:https://arxiv.org/abs/2412.10523v1
项目页面:https://languageofmotion.github.io/
语言模型能自然地与其它模态连接起来;
语音富含语义,而「建模因笑话而发出的笑声」这样的任务需要强大的语义推理能力;
经过大量预训练之后,语言模型能够具备强大的语义理解能力。
首先,进行预训练,目标是通过身体组合动作对齐与音频 - 文本对齐来对齐各种不同的模态。
预训练完成后,将下游任务编译成指令,并根据这些指令训练模型,使模型能够遵循各种任务指令。
空间
时间
发表评论
文章分类
联系我们
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |