Ecoute รจ un'applicazione di riconoscimento vocale in tempo reale che supporta multiple lingue, inclusa l'italiano. L'applicazione puรฒ trascrivere sia l'audio dal microfono che l'audio riprodotto dagli altoparlanti del sistema.
- Supporto Multilingue: Italiano, Inglese, Spagnolo, Francese, Tedesco, Portoghese, Hindi, Olandese
- Riconoscimento in Tempo Reale: Trascrizione simultanea di microfono e altoparlanti
- Interfaccia Grafica Moderna: UI intuitiva con PyQt6 e CustomTkinter
- Modelli Avanzati:
- ๐ Voxtral-Mini-3B-2507 (Nuovo!) - Comprensione audio avanzata
- Faster Whisper locali
- OpenVINO Whisper ottimizzato
- OpenAI Whisper API
- Ollama Whisper
- Cambio Lingua Dinamico: Possibilitร di cambiare lingua durante l'uso
- Database Locale: Salvataggio automatico delle trascrizioni
-
Clona il repository:
git clone <repository-url> cd ecoute
-
Installa le dipendenze:
pip install -r requirements.txt
-
Installa FFmpeg (richiesto per l'elaborazione audio):
- Windows: Scarica da ffmpeg.org e aggiungi al PATH
- macOS:
brew install ffmpeg - Linux:
sudo apt install ffmpeg
# Setup automatico
python setup_voxtral.py
# Interfaccia moderna (consigliata)
python run_modern.py --voxtral
# Interfaccia classica
python main.py --voxtralNota: Richiede GPU con 10GB+ VRAM per prestazioni ottimali
# Interfaccia moderna
python run_modern.py
# Interfaccia classica
python main.pypython run_modern.py --openvinopython main.py --ollamaNota: Richiede Ollama installato da https://ollama.ai
python run_modern.py --apiNota: Richiede una chiave API OpenAI configurata nell'ambiente
- Menu Lingua: Seleziona la lingua per il riconoscimento vocale
- Area Trascrizione: Visualizza le trascrizioni in tempo reale
- Pulsante "Cancella Trascrizione": Pulisce la cronologia delle trascrizioni
- ๐ฎ๐น Italiano (it) - Eccellente
- ๐บ๐ธ Inglese (en) - Eccellente
- ๐ช๐ธ Spagnolo (es) - Eccellente
- ๐ซ๐ท Francese (fr) - Eccellente
- ๐ฉ๐ช Tedesco (de) - Eccellente
- ๐ต๐น Portoghese (pt) - Eccellente
- ๐ฎ๐ณ Hindi (hi) - Eccellente
- ๐ณ๐ฑ Olandese (nl) - Eccellente
Tutti gli altri modelli supportano 100+ lingue tramite Whisper
- Velocitร : Molto veloce
- Accuratezza: Alta
- Costo: Gratuito
- Requisiti: Ollama installato
- Comando:
python main.py --ollama
- Velocitร : Media
- Accuratezza: Buona
- Costo: Gratuito
- Requisiti: GPU opzionale
- Comando:
python main.py
- Velocitร : Alta
- Accuratezza: Molto alta
- Costo: $0.006/minuto
- Requisiti: Chiave API
- Comando:
python main.py --api
Per utilizzare l'API OpenAI:
export OPENAI_API_KEY="your-api-key-here"I parametri di registrazione possono essere modificati in AudioRecorder.py:
RECORD_TIMEOUT: Timeout per la registrazione (default: 3 secondi)ENERGY_THRESHOLD: Soglia di energia per il rilevamento vocaleDYNAMIC_ENERGY_THRESHOLD: Soglia dinamica abilitata/disabilitata
ecoute/
โโโ main.py # Punto di ingresso principale
โโโ AudioRecorder.py # Gestione registrazione audio
โโโ AudioTranscriber.py # Trascrizione audio
โโโ TranscriberModels.py # Modelli di riconoscimento vocale
โโโ custom_speech_recognition/ # Libreria personalizzata
โโโ requirements.txt # Dipendenze Python
Assicurati di aver installato PyAudioWPatch:
pip install PyAudioWPatchVerifica che FFmpeg sia installato e accessibile dal PATH:
ffmpeg -version- Per migliori performance, utilizza una GPU CUDA
- Il modello "base" รจ piรน accurato ma piรน lento del modello "tiny"
- ๐๏ธ Guida Voxtral - Setup e utilizzo del modello Voxtral-Mini-3B-2507
- ๐ง Guida OpenVINO - Ottimizzazione CPU con Intel OpenVINO
- ๐ฏ Interfaccia Moderna - Guida all'interfaccia PyQt6
Questo progetto รจ rilasciato sotto licenza MIT. Vedi il file LICENSE per i dettagli.
I contributi sono benvenuti! Per favore:
- Fai un fork del progetto
- Crea un branch per la tua feature
- Committa le modifiche
- Apri una Pull Request
Per problemi o domande, apri una issue su GitHub.