论文标题:The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion
论文地址:https://arxiv.org/abs/2412.10523v1
项目页面:https://languageofmotion.github.io/
语言模型能自然地与其它模态连接起来;
语音富含语义,而「建模因笑话而发出的笑声」这样的任务需要强大的语义推理能力;
经过大量预训练之后,语言模型能够具备强大的语义理解能力。
首先,进行预训练,目标是通过身体组合动作对齐与音频 - 文本对齐来对齐各种不同的模态。
预训练完成后,将下游任务编译成指令,并根据这些指令训练模型,使模型能够遵循各种任务指令。
空间
时间