# NTU S-lab 刘子纬团队与港中文合作，提出全新动作生成框架！

URL: https://www.shicheng.news/v/b2EvK
Published: 2026-04-02
Source: 狮城新闻

南洋理工大学（NTU）S-Lab 与香港中文大学研究团队，提出**全新动作生成框架 MoTok**！该技术首创基于扩散的离散运动 tokenizer，破解了动作生成中 “可控性” 与 “自然度” 的取舍困境，同时将 token 量压缩至现有 SOTA 方法的 1/6，**实现 “越控越自然” 的突破性效果！**

**研究团队与论文信息**

**核心作者**

Chenyang Gu、Mingyuan Zhang、Haozhe Xie）：NTU S-Lab 共同一作

Zhongang Cai、Lei Yang：核心研究成员

刘子纬（Ziwei Liu）：NTU S-Lab 通讯作者，课题负责人

**链接**

论文链接：https://arxiv.org/pdf/2603.19227v1

项目主页：https://rheallyc.github.io/projects/motok/

Github链接：github.com/rheallyc/MoTok

**核心突破：破解 “可控性 - 自然度” 二选一难题**

现有动作生成方法中，控制越强动作越僵硬，追求自然度则易偏离指令，两类需求始终此消彼长！MoTok 团队指出，核心矛盾在于：**高层语义规划**（决定 “做什么”）与**低层细节控制**（决定 “怎么做”）被强行压缩在同一生成阶段，相互拉扯导致性能受限！

![NTU S-lab 刘子纬团队与港中文合作，提出全新动作生成框架！](https://www.shicheng.news/images/image/1783/17831391.avif?0)


MoTok 首创Perception–Planning–Control 三阶段范式，从根源化解矛盾：

Perception 阶段：灵活适配全局 / 局部条件输入，理解动作需求

Planning 阶段：在离散 token 空间完成高层语义规划，仅保留核心语义信息

Control 阶段：通过基于扩散的解码器，完成动作细节重建与细粒度控制

![NTU S-lab 刘子纬团队与港中文合作，提出全新动作生成框架！](https://www.shicheng.news/images/image/1783/17831392.avif?0)


**关键性能数据：token 大砍，效果全面提升**

**核心指标突破**

oken 量压缩：仅为现有 SOTA 方法的1/6，大幅降低计算成本

轨迹误差降低：从0.72cm降至0.08cm，降幅达 89%！

FID 指标优化：基础 FID 从0.083降至0.029，降幅65%；关节轨迹控制下 FID 再降58%，低至 0.014！

多任务性能提升：文生动作（T2M）、动生文（M2T）任务效果均大幅提升，T2M FID 从0.141降至0.053！

![NTU S-lab 刘子纬团队与港中文合作，提出全新动作生成框架！](https://www.shicheng.news/images/image/1783/17831393.avif?0)


**对比实验验证**

在完全相同的离散 token 下，仅替换为 MoTok 扩散解码器，重建效果即显著改善；替换为 MoTok token 后，无论搭配何种解码器，文生动作效果均大幅提升！

![NTU S-lab 刘子纬团队与港中文合作，提出全新动作生成框架！](https://www.shicheng.news/images/image/1783/17831394.avif?0)


**技术创新：从粗到精的分阶段控制注入**

**从粗到精的控制注入方案**

Planning 阶段：关节轨迹以粗粒度约束参与动作规划，不干扰语义规划

Control 阶段：以细粒度约束通过扩散迭代优化，精准控制动作细节

![NTU S-lab 刘子纬团队与港中文合作，提出全新动作生成框架！](https://www.shicheng.news/images/image/1783/17831395.avif?0)


消融实验验证：仅保留 Planning 阶段粗约束，轨迹控制误差大幅上升；仅在 Control 阶段施加细约束，动作分布明显受损；双阶段协同才能实现可控性与自然度的双重提升！

![NTU S-lab 刘子纬团队与港中文合作，提出全新动作生成框架！](https://www.shicheng.news/images/image/1783/17831396.avif?0)


**应用前景：赋能数字人、具身智能等多场景**

MoTok 实现了**高层语义与低层细节的解耦**，让条件动作生成同时具备更强可控性、更高自然度与更好通用性！

该范式为具身智能、数字人、虚拟角色动画等场景，**提供了全新的技术方向**，推动动作生成技术迈向实用化！

![NTU S-lab 刘子纬团队与港中文合作，提出全新动作生成框架！](https://www.shicheng.news/images/image/1783/17831397.avif?0)


![NTU S-lab 刘子纬团队与港中文合作，提出全新动作生成框架！](https://www.shicheng.news/images/image/1783/17831400.avif?0)