Speech-Recognition on Noureddine RAMDI

Speech-Recognition on Noureddine RAMDIhttps://ramdi.fr/tags/speech-recognition/Recent content in Speech-Recognition on Noureddine RAMDIHugoenSat, 23 May 2026 20:41:27 +0000Fun-ASR: Alibaba's multilingual speech recognition model with real-time capabilitieshttps://ramdi.fr/github-stars/fun-asr-alibaba-s-multilingual-speech-recognition-model-with-real-time-capabilities/Sat, 23 May 2026 20:41:14 +0000https://ramdi.fr/github-stars/fun-asr-alibaba-s-multilingual-speech-recognition-model-with-real-time-capabilities/Fun-ASR is Alibaba Tongyi Lab’s end-to-end speech recognition model with 800M parameters, supporting 31 languages and real-time transcription in noisy environments.Kimi-Audio: a unified hybrid-token audio foundation model with LLM corehttps://ramdi.fr/github-stars/kimi-audio-a-unified-hybrid-token-audio-foundation-model-with-llm-core/Sat, 23 May 2026 20:41:14 +0000https://ramdi.fr/github-stars/kimi-audio-a-unified-hybrid-token-audio-foundation-model-with-llm-core/Kimi-Audio combines continuous acoustic and discrete semantic tokens within a 7B LLM for unified audio-text understanding and generation. It achieves state-of-the-art ASR with low-latency audio synthesis.LiveCaptions Translator: Real-time speech translation using Windows 11's built-in captions and LLM APIshttps://ramdi.fr/github-stars/livecaptions-translator-real-time-speech-translation-using-windows-11-s-built-in-captions-and-llm-apis/Sat, 23 May 2026 20:41:14 +0000https://ramdi.fr/github-stars/livecaptions-translator-real-time-speech-translation-using-windows-11-s-built-in-captions-and-llm-apis/LiveCaptions Translator taps Windows 11’s on-device LiveCaptions for real-time speech translation via multiple LLM and traditional APIs, all in a sleek C# desktop app.