Strumenti installati localmente per la trascrizione e la traduzione da parlato a testo con Faster-Whisper e Speech Note su Windows e Linux

Home » Blog » Locally Installed Tools for Speech-to-Text Transcription and Translation with Faster-Whisper and Speech Note on Windows and Linux

La trascrizione del parlato in testo e l’elaborazione del linguaggio naturale hanno fatto passi da gigante negli ultimi anni, grazie ai progressi nell’apprendimento automatico e nei network neurali profondi. Il modello Whisper di OpenAI è uno di quelli che ha guadagnato popolarità per la sua capacità di trascrivere file audio e eseguire traduzioni linguistiche. In questo articolo, esploreremo alcuni strumenti installabili localmente per lavorare con Faster-Whisper e Speech Note su Windows e Linux, che offrono una gamma di opzioni per trascrivere file audio e eseguire traduzioni linguistiche sulla tua macchina locale. Così potrai avere il tuo proprio sistema di trascrizione del parlato in testo in funzione su Windows e Linux.

Panoramica degli strumenti di trascrizione del parlato in testo Whisper, Faster-Whisper e Speech Note

Il modello di riconoscimento vocale Whisper di OpenAI è molto popolare per la trascrizione di file audio e la traduzione linguistica. Tuttavia, presenta alcune limitazioni in termini di velocità e utilizzo della memoria. Per affrontare questi problemi, sono stati sviluppati due strumenti: Faster-Whisper e Speech Note.

Faster-Whisper è una reimplementazione di Whisper che utilizza CTranslate2, un motore di inferenza veloce per modelli Transformer. Questa implementazione è fino a 4 volte più rapida di openai/whisper e può ridurre ulteriormente l’utilizzo della memoria con la quantizzazione su CPU e GPU.

Speech Note, d’altra parte, è un’applicazione desktop per Linux che fornisce un’interfaccia facile da usare per il riconoscimento vocale e la presa di appunti. È in grado di utilizzare Whisper come modello sottostante, ma offre funzionalità aggiuntive come la registrazione del microfono, l’editing del testo e opzioni di esportazione semplici.

Ecco gli strumenti hanno ciascuno i loro vantaggi unici e possono essere utilizzati a seconda delle esigenze specifiche dell’utente. Faster-Whisper è ideale per coloro che richiedono velocità di trascrizione più rapide e un uso della memoria più basso, mentre Speech Note è adatto per gli utenti Linux che preferiscono un’interfaccia più user-friendly con funzionalità aggiuntive oltre al riconoscimento vocale.

Per gli utenti Windows, c’è una sezione separata sotto. Abbiamo anche dedicato un articolo separato agli strumenti di trascrizione vocale per Windows, che sono convenienti da installare e utilizzare.

Installazione di Faster-Whisper e Speech Note su Linux

Su Linux, Faster-Whisper può essere installato da PyPI utilizzando pip.

pip install faster-whisper-cli

Nota di discorso è un’applicazione desktop Linux che può essere scaricata e installata da Flathub.

Installazione di faster-whisper su Windows

Se si lavora con Windows, è possibile scaricare un eseguibile standalone di faster-whisper da qui. Leggi come utilizzarlo nella sezione successiva.

Lavorare con Faster-Whisper

Faster-Whisper può essere utilizzato per trascrivere file audio e eseguire traduzioni linguistiche sulla propria macchina locale. È una reimplementazione di Whisper che utilizza CTranslate2, un motore di inferenza rapido per modelli Transformer. Questa implementazione è fino a 4 volte più veloce di openai/whisper e può ridurre ulteriormente l’utilizzo della memoria con quantizzazione sia sulla CPU che sulla GPU.

Utilizzo di Faster-Whisper su Linux

Di seguito è possibile utilizzare faster-whisper dalla riga di comando per trascrivere un file audio:

faster-whisper myaudio.mp3 > transcript.txt

Questo comando trascriberà il file myaudio.mp3 in un file di testo chiamato transcript.txt. È anche possibile specificare opzioni aggiuntive, come la lingua e le dimensioni del beam:

faster-whisper --language en --beam_size 5 myaudio.mp3 > transcript.txt

Utilizzo di Faster-Whisper su Windows

Whisper Standalone local Speech-to-Text Transcription on Windows
  1. Apriamo Esplora risorse e navigiamo fino al percorso dove abbiamo scaricato il file whisper-faster.exe.
  2. Copiamo il file audio che vogliamo trascrivere nella stessa posizione.
  3. Selezioniamo File -> Apri PowerShell di Windows.

    Where to find the Windos PowerShell file menu
  4. Digitiamo il nome dell’eseguibile con una barra rovesciata e un punto iniziale:
    .\whisper-faster.exe
  5. Aggiungiamo uno spazio e appendiamo il nome del file audio, anch’esso con una barra rovesciata e un punto iniziale:
    .\whisper-faster.exe .\myaudio.mp3
  6. Premiamo Invio. Ora whisper-velocity scaricherà i modelli richiesti e trascriverà il nostro file audio. Poiché i modelli sono abbastanza grandi (diversi gigabyte), ciò potrebbe richiedere del tempo. Tuttavia, lo scaricamento avverrà solo alla prima esecuzione, tutte le esecuzioni successive saranno molto più rapide.
  7. Possiamo anche utilizzare opzioni avanzate come descritto nel paragrafo sopra.

Lavorando con Speech Note

Speech Note local Speech-to-Text Transcription on Linux

Nota di Voce è un’applicazione desktop per Linux per il riconoscimento vocale e la presa di appunti. Fornisce un’interfaccia facile da usare per trascrivere file audio e eseguire traduzioni linguistiche.

Ecco come utilizzare Nota di Voce:

  1. Avvia Nota di Voce e seleziona il tuo modello di lingua preferito.
  2. Clicca sul pulsante Ascolta per utilizzare il registratore audio integrato.
  3. La tua voce viene trascritta automaticamente in testo.
  4. Modifica la trascrizione come necessario utilizzando l’editor di testo integrato.
  5. Esporta o copia la trascrizione in un file di testo.

Conclusione

Faster-Whisper e Nota di Voce forniscono un set di strumenti potenti installabili localmente per il riconoscimento vocale e l’elaborazione del linguaggio naturale. Dalla interfaccia a riga di comando (CLI) all’applicazione desktop, questi strumenti offrono una gamma di opzioni per trascrivere file audio e eseguire traduzioni linguistiche sulla tua macchina locale.

Con la loro alta precisione, inferenza veloce e interfacce facilmente utilizzabili, questi strumenti sono una scelta eccellente per applicazioni di riconoscimento vocale e elaborazione del linguaggio naturale. Che tu stia trascrivendo file audio, eseguendo traduzioni linguistiche o prendendo appunti con Speech Note, c’è uno strumento installabile localmente che può aiutarti a portare a termine il lavoro.

Share it

Comments

1 risposta a “Strumenti installati localmente per la trascrizione e la traduzione da parlato a testo con Faster-Whisper e Speech Note su Windows e Linux”

  1. […] our last article, we focused on Locally Installed Transcription Tools for both Windows and Linux. However, the instructions for those of you using Microsoft Windows were […]