Video-Transformers on Noureddine RAMDI

Video-Transformers on Noureddine RAMDIhttps://ramdi.fr/tags/video-transformers/Recent content in Video-Transformers on Noureddine RAMDIHugoenSat, 23 May 2026 20:41:27 +0000DiT4DiT: Vision-Action Modeling with Video Transformers for Real-Time Humanoid Robot Controlhttps://ramdi.fr/github-stars/dit4dit-vision-action-modeling-with-video-transformers-for-real-time-humanoid-robot-control/Sat, 23 May 2026 20:41:14 +0000https://ramdi.fr/github-stars/dit4dit-vision-action-modeling-with-video-transformers-for-real-time-humanoid-robot-control/DiT4DiT uses a frozen Cosmos-Predict2.5 video transformer backbone combined with flow-matching action heads to model robot actions as video latent transitions, achieving near-perfect success on LIBERO and real-time humanoid control.