Noureddine RAMDI

🚀

Noureddine RAMDI Dinour

Lead Developer & AI Enthusiast — Software Architecture, AI/LLM, Infrastructure Automation

Organizations

1 results for Vision-Action-Model

DiT4DiT: Vision-Action Modeling with Video Transformers for Real-Time Humanoid Robot Control
DiT4DiT uses a frozen Cosmos-Predict2.5 video transformer backbone combined with flow-matching action heads to model robot actions as video latent transitions, achieving near-perfect success on LIBERO and real-time humanoid control.
github-stars robotics video-transformers vision-action-model flow-matching Created Sat, 23 May 2026 20:41:14 +0000