GitHub - agentem-ai/izwi: Un motor de inferencia de audio local
Resumen
Izwi es una pila de inferencia de audio local basada en Rust, diseñada para flujos de trabajo de voz y audio, que ofrece capacidades de texto a voz (TTS), reconocimiento automático de voz (ASR) y soporte para modelos de chat/audio-chat. Presenta un flujo de trabajo centrado en la CLI (`izwi`) y una interfaz de usuario web, con el servidor exponiendo rutas estilo OpenAI bajo `/v1`. Las características clave incluyen operación local, gestión del ciclo de vida de los modelos a través de la CLI (descarga desde Hugging Face), soporte de aceleración Apple Silicon (Metal) y compilaciones nativas multiplataforma. Los requisitos incluyen la cadena de herramientas de Rust y Node.js 18+ para la UI. Los usuarios pueden configurar rápidamente instalando dependencias, compilando binarios y ejecutando `izwi serve`. Las familias de modelos soportadas actualmente incluyen varias variantes de Qwen3 para TTS, ASR, chat y alineación forzada, con Voxtral realtime y LFM2-Audio próximamente.
(Fuente:GitHub)