# NTU S-lab 劉子緯團隊與港中文合作，提出全新動作生成框架！

URL: https://www.shicheng.news/zh-hant/v/b2EvK
Published: 2026-04-02
Source: 獅城新聞

南洋理工大學（NTU）S-Lab 與香港中文大學研究團隊，提出**全新動作生成框架 MoTok**！該技術首創基於擴散的離散運動 tokenizer，破解了動作生成中 「可控性」 與 「自然度」 的取捨困境，同時將 token 量壓縮至現有 SOTA 方法的 1/6，**實現 「越控越自然」 的突破性效果！**

**研究團隊與論文信息**

**核心作者**

Chenyang Gu、Mingyuan Zhang、Haozhe Xie）：NTU S-Lab 共同一作

Zhongang Cai、Lei Yang：核心研究成員

劉子緯（Ziwei Liu）：NTU S-Lab 通訊作者，課題負責人

**連結**

論文連結：https://arxiv.org/pdf/2603.19227v1

項目主頁：https://rheallyc.github.io/projects/motok/

Github連結：github.com/rheallyc/MoTok

**核心突破：破解 「可控性 - 自然度」 二選一難題**

現有動作生成方法中，控制越強動作越僵硬，追求自然度則易偏離指令，兩類需求始終此消彼長！MoTok 團隊指出，核心矛盾在於：**高層語義規劃**（決定 「做什麼」）與**低層細節控制**（決定 「怎麼做」）被強行壓縮在同一生成階段，相互拉扯導致性能受限！

![NTU S-lab 劉子緯團隊與港中文合作，提出全新動作生成框架！](https://www.shicheng.news/images/image/1783/17831391.avif?0)





MoTok 首創Perception–Planning–Control 三階段範式，從根源化解矛盾：

Perception 階段：靈活適配全局 / 局部條件輸入，理解動作需求

Planning 階段：在離散 token 空間完成高層語義規劃，僅保留核心語義信息

Control 階段：通過基於擴散的解碼器，完成動作細節重建與細粒度控制

![NTU S-lab 劉子緯團隊與港中文合作，提出全新動作生成框架！](https://www.shicheng.news/images/image/1783/17831392.avif?0)



**關鍵性能數據：token 大砍，效果全面提升**

**核心指標突破**

oken 量壓縮：僅為現有 SOTA 方法的1/6，大幅降低計算成本

軌跡誤差降低：從0.72cm降至0.08cm，降幅達 89%！

FID 指標優化：基礎 FID 從0.083降至0.029，降幅65%；關節軌跡控制下 FID 再降58%，低至 0.014！

多任務性能提升：文生動作（T2M）、動生文（M2T）任務效果均大幅提升，T2M FID 從0.141降至0.053！

![NTU S-lab 劉子緯團隊與港中文合作，提出全新動作生成框架！](https://www.shicheng.news/images/image/1783/17831393.avif?0)



**對比實驗驗證**

在完全相同的離散 token 下，僅替換為 MoTok 擴散解碼器，重建效果即顯著改善；替換為 MoTok token 後，無論搭配何種解碼器，文生動作效果均大幅提升！

![NTU S-lab 劉子緯團隊與港中文合作，提出全新動作生成框架！](https://www.shicheng.news/images/image/1783/17831394.avif?0)



**技術創新：從粗到精的分階段控制注入**

**從粗到精的控制注入方案**

Planning 階段：關節軌跡以粗粒度約束參與動作規劃，不干擾語義規劃

Control 階段：以細粒度約束通過擴散疊代優化，精準控制動作細節

![NTU S-lab 劉子緯團隊與港中文合作，提出全新動作生成框架！](https://www.shicheng.news/images/image/1783/17831395.avif?0)



消融實驗驗證：僅保留 Planning 階段粗約束，軌跡控制誤差大幅上升；僅在 Control 階段施加細約束，動作分布明顯受損；雙階段協同才能實現可控性與自然度的雙重提升！

![NTU S-lab 劉子緯團隊與港中文合作，提出全新動作生成框架！](https://www.shicheng.news/images/image/1783/17831396.avif?0)



**應用前景：賦能數字人、具身智能等多場景**

MoTok 實現了**高層語義與低層細節的解耦**，讓條件動作生成同時具備更強可控性、更高自然度與更好通用性！

該範式為具身智能、數字人、虛擬角色動畫等場景，**提供了全新的技術方向**，推動動作生成技術邁向實用化！

![NTU S-lab 劉子緯團隊與港中文合作，提出全新動作生成框架！](https://www.shicheng.news/images/image/1783/17831397.avif?0)





![NTU S-lab 劉子緯團隊與港中文合作，提出全新動作生成框架！](https://www.shicheng.news/images/image/1783/17831400.avif?0)
