Multimodal on Noureddine RAMDI

Multimodal on Noureddine RAMDIhttps://ramdi.fr/tags/multimodal/Recent content in Multimodal on Noureddine RAMDIHugoenSat, 23 May 2026 20:41:27 +0000npcpy: enforcing AI behavioral compliance through architecture for multimodal LLM appshttps://ramdi.fr/github-stars/npcpy-enforcing-ai-behavioral-compliance-through-architecture-for-multimodal-llm-apps/Sat, 23 May 2026 20:41:14 +0000https://ramdi.fr/github-stars/npcpy-enforcing-ai-behavioral-compliance-through-architecture-for-multimodal-llm-apps/npcpy offers a unique NPC Context-Agent-Tool data layer to enforce AI compliance via software architecture, supporting multimodal LLM apps and multi-agent systems with local and cloud providers.OmniGen2: a unified multimodal generation model with separate decoding paths for text and imageshttps://ramdi.fr/github-stars/omnigen2-a-unified-multimodal-generation-model-with-separate-decoding-paths-for-text-and-images/Sat, 23 May 2026 20:41:14 +0000https://ramdi.fr/github-stars/omnigen2-a-unified-multimodal-generation-model-with-separate-decoding-paths-for-text-and-images/OmniGen2 unifies visual understanding, text-to-image generation, and image editing using distinct decoding pathways for text and images, built on Qwen-VL-2.5 with CPU offloading for accessibility.MedRAX: orchestrating specialized AI tools for chest X-ray analysis with dynamic routinghttps://ramdi.fr/github-stars/medrax-orchestrating-specialized-ai-tools-for-chest-x-ray-analysis-with-dynamic-routing/Tue, 05 May 2026 16:46:42 +0000https://ramdi.fr/github-stars/medrax-orchestrating-specialized-ai-tools-for-chest-x-ray-analysis-with-dynamic-routing/MedRAX uses GPT-4o to dynamically route medical queries across multiple AI models for chest X-ray interpretation. It offers modular, tool-agnostic orchestration with a Gradio interface.daVinci-MagiHuman: Simplifying multimodal video and audio generation with a single-stream transformerhttps://ramdi.fr/github-stars/davinci-magihuman-simplifying-multimodal-video-and-audio-generation-with-a-single-stream-transformer/Mon, 04 May 2026 10:23:02 +0000https://ramdi.fr/github-stars/davinci-magihuman-simplifying-multimodal-video-and-audio-generation-with-a-single-stream-transformer/daVinci-MagiHuman uses a 15B-parameter single-stream transformer with a sandwich architecture to generate video and audio from text, achieving competitive quality and fast inference on a single H100 GPU.Exploring Claude API integration patterns with anthropics/claude-cookbookshttps://ramdi.fr/github-stars/exploring-claude-api-integration-patterns-with-anthropics-claude-cookbooks/Mon, 04 May 2026 10:23:02 +0000https://ramdi.fr/github-stars/exploring-claude-api-integration-patterns-with-anthropics-claude-cookbooks/anthropics/claude-cookbooks offers Jupyter Notebook recipes demonstrating practical Claude API usage, including sub-agent orchestration, multimodal vision, and RAG patterns.Falcon-Perception: a minimal multimodal PyTorch engine for object detection, segmentation, and OCRhttps://ramdi.fr/github-stars/falcon-perception-a-minimal-multimodal-pytorch-engine-for-object-detection-segmentation-and-ocr/Mon, 04 May 2026 10:23:02 +0000https://ramdi.fr/github-stars/falcon-perception-a-minimal-multimodal-pytorch-engine-for-object-detection-segmentation-and-ocr/Falcon-Perception is a PyTorch engine for multimodal autoregressive Transformers handling detection, segmentation, and OCR with FlexAttention and efficient caching.Inside Alibaba’s VRAG: Multimodal Retrieval-Augmented Generation with Dynamic Reasoning Graphshttps://ramdi.fr/github-stars/inside-alibabas-vrag-multimodal-retrieval-augmented-generation-with-dynamic-reasoning-graphs/Mon, 04 May 2026 10:23:02 +0000https://ramdi.fr/github-stars/inside-alibabas-vrag-multimodal-retrieval-augmented-generation-with-dynamic-reasoning-graphs/Alibaba’s VRAG models reasoning as a dynamic DAG with multimodal memory and RL-based fine-grained credit assignment, supporting text, image, and video retrieval in a unified framework.Omni-Diffusion: unified any-to-any multimodal generation with masked discrete diffusionhttps://ramdi.fr/github-stars/omni-diffusion-unified-any-to-any-multimodal-generation-with-masked-discrete-diffusion/Mon, 04 May 2026 10:23:02 +0000https://ramdi.fr/github-stars/omni-diffusion-unified-any-to-any-multimodal-generation-with-masked-discrete-diffusion/Omni-Diffusion models text, image, and speech tokens jointly via masked discrete diffusion, enabling any-to-any multimodal generation with a single unified model.TextGen: a portable zero-config local LLM runner with multi-backend and multimodal supporthttps://ramdi.fr/github-stars/textgen-a-portable-zero-config-local-llm-runner-with-multi-backend-and-multimodal-support/Mon, 04 May 2026 10:23:02 +0000https://ramdi.fr/github-stars/textgen-a-portable-zero-config-local-llm-runner-with-multi-backend-and-multimodal-support/TextGen offers a portable desktop app for local LLMs with zero telemetry and multi-backend support. Drop GGUF models in a folder and run with no complex setup. It features multimodal vision, file attachments, and OpenAI-compatible API.Claudish: A versatile TypeScript CLI proxy bridging Claude Code with 580+ AI modelshttps://ramdi.fr/github-stars/claudish-a-versatile-typescript-cli-proxy-bridging-claude-code-with-580-ai-models/Mon, 04 May 2026 10:23:01 +0000https://ramdi.fr/github-stars/claudish-a-versatile-typescript-cli-proxy-bridging-claude-code-with-580-ai-models/Claudish is a TypeScript CLI proxy that lets Claude Code work with 580+ AI models via OpenRouter, direct APIs, and local inference, enabling multimodal capabilities through vision proxying.