南洋理工大学(NTU)S-Lab 与香港中文大学研究团队,提出全新动作生成框架 MoTok!该技术首创基于扩散的离散运动 tokenizer,破解了动作生成中 “可控性” 与 “自然度” 的取舍困境,同时将 token 量压缩至现有 SOTA 方法的 1/6,实现 “越控越自然” 的突破性效果!
研究团队与论文信息
核心作者
Chenyang Gu、Mingyuan Zhang、Haozhe Xie):NTU S-Lab 共同一作
Zhongang Cai、Lei Yang:核心研究成员
刘子纬(Ziwei Liu):NTU S-Lab 通讯作者,课题负责人
链接
论文链接:https://arxiv.org/pdf/2603.19227v1
项目主页:https://rheallyc.github.io/projects/motok/
Github链接:github.com/rheallyc/MoTok
核心突破:破解 “可控性 - 自然度” 二选一难题
现有动作生成方法中,控制越强动作越僵硬,追求自然度则易偏离指令,两类需求始终此消彼长!MoTok 团队指出,核心矛盾在于:高层语义规划(决定 “做什么”)与低层细节控制(决定 “怎么做”)被强行压缩在同一生成阶段,相互拉扯导致性能受限!

MoTok 首创Perception–Planning–Control 三阶段范式,从根源化解矛盾:
Perception 阶段:灵活适配全局 / 局部条件输入,理解动作需求
Planning 阶段:在离散 token 空间完成高层语义规划,仅保留核心语义信息
Control 阶段:通过基于扩散的解码器,完成动作细节重建与细粒度控制

关键性能数据:token 大砍,效果全面提升
核心指标突破
oken 量压缩:仅为现有 SOTA 方法的1/6,大幅降低计算成本
轨迹误差降低:从0.72cm降至0.08cm,降幅达 89%!
FID 指标优化:基础 FID 从0.083降至0.029,降幅65%;关节轨迹控制下 FID 再降58%,低至 0.014!
多任务性能提升:文生动作(T2M)、动生文(M2T)任务效果均大幅提升,T2M FID 从0.141降至0.053!

对比实验验证
在完全相同的离散 token 下,仅替换为 MoTok 扩散解码器,重建效果即显著改善;替换为 MoTok token 后,无论搭配何种解码器,文生动作效果均大幅提升!

技术创新:从粗到精的分阶段控制注入
从粗到精的控制注入方案
Planning 阶段:关节轨迹以粗粒度约束参与动作规划,不干扰语义规划
Control 阶段:以细粒度约束通过扩散迭代优化,精准控制动作细节

消融实验验证:仅保留 Planning 阶段粗约束,轨迹控制误差大幅上升;仅在 Control 阶段施加细约束,动作分布明显受损;双阶段协同才能实现可控性与自然度的双重提升!

应用前景:赋能数字人、具身智能等多场景
MoTok 实现了高层语义与低层细节的解耦,让条件动作生成同时具备更强可控性、更高自然度与更好通用性!
该范式为具身智能、数字人、虚拟角色动画等场景,提供了全新的技术方向,推动动作生成技术迈向实用化!

























