GitHub - agentem-ai/izwi-audio: Inferencia para modelos de audio de Hugging Face
Resumen
Izwi es un motor de inferencia de texto a voz (TTS) de alto rendimiento basado en Rust, optimizado para modelos Qwen3-TTS en Apple Silicon (M1+) mediante el uso de MLX para la memoria unificada y la aceleración de GPU Metal. Sus características clave incluyen transmisión de latencia ultra baja, gestión directa de modelos a través de una interfaz de usuario basada en React y puntos finales de API REST compatibles con OpenAI. Soporta varios modelos Qwen3-TTS para generación de voz base y clonación de voz personalizada usando audio de referencia, además de modelos Qwen3-ASR para transcripción de voz a texto. El despliegue es compatible a través de Docker o instalación nativa en macOS/Linux, con guías detalladas de inicio rápido proporcionadas tanto para entornos de producción como de desarrollo.
(Fuente:GitHub)