南洋理工大學(NTU)S-Lab 與香港中文大學研究團隊,提出全新動作生成框架 MoTok!該技術首創基於擴散的離散運動 tokenizer,破解了動作生成中 「可控性」 與 「自然度」 的取捨困境,同時將 token 量壓縮至現有 SOTA 方法的 1/6,實現 「越控越自然」 的突破性效果!
研究團隊與論文信息
核心作者
Chenyang Gu、Mingyuan Zhang、Haozhe Xie):NTU S-Lab 共同一作
Zhongang Cai、Lei Yang:核心研究成員
劉子緯(Ziwei Liu):NTU S-Lab 通訊作者,課題負責人
連結
論文連結:https://arxiv.org/pdf/2603.19227v1
項目主頁:https://rheallyc.github.io/projects/motok/
Github連結:github.com/rheallyc/MoTok
核心突破:破解 「可控性 - 自然度」 二選一難題
現有動作生成方法中,控制越強動作越僵硬,追求自然度則易偏離指令,兩類需求始終此消彼長!MoTok 團隊指出,核心矛盾在於:高層語義規劃(決定 「做什麼」)與低層細節控制(決定 「怎麼做」)被強行壓縮在同一生成階段,相互拉扯導致性能受限!

MoTok 首創Perception–Planning–Control 三階段範式,從根源化解矛盾:
Perception 階段:靈活適配全局 / 局部條件輸入,理解動作需求
Planning 階段:在離散 token 空間完成高層語義規劃,僅保留核心語義信息
Control 階段:通過基於擴散的解碼器,完成動作細節重建與細粒度控制

關鍵性能數據:token 大砍,效果全面提升
核心指標突破
oken 量壓縮:僅為現有 SOTA 方法的1/6,大幅降低計算成本
軌跡誤差降低:從0.72cm降至0.08cm,降幅達 89%!
FID 指標優化:基礎 FID 從0.083降至0.029,降幅65%;關節軌跡控制下 FID 再降58%,低至 0.014!
多任務性能提升:文生動作(T2M)、動生文(M2T)任務效果均大幅提升,T2M FID 從0.141降至0.053!

對比實驗驗證
在完全相同的離散 token 下,僅替換為 MoTok 擴散解碼器,重建效果即顯著改善;替換為 MoTok token 後,無論搭配何種解碼器,文生動作效果均大幅提升!

技術創新:從粗到精的分階段控制注入
從粗到精的控制注入方案
Planning 階段:關節軌跡以粗粒度約束參與動作規劃,不干擾語義規劃
Control 階段:以細粒度約束通過擴散疊代優化,精準控制動作細節

消融實驗驗證:僅保留 Planning 階段粗約束,軌跡控制誤差大幅上升;僅在 Control 階段施加細約束,動作分布明顯受損;雙階段協同才能實現可控性與自然度的雙重提升!

應用前景:賦能數字人、具身智能等多場景
MoTok 實現了高層語義與低層細節的解耦,讓條件動作生成同時具備更強可控性、更高自然度與更好通用性!
該範式為具身智能、數字人、虛擬角色動畫等場景,提供了全新的技術方向,推動動作生成技術邁向實用化!

























