Trascrizione locale da parlato a testo su Windows e Linux • Online Speech to Text Cloud

Contents hide

1 Panoramica degli strumenti di trascrizione del parlato in testo Whisper, Faster-Whisper e Speech Note

2 Installazione di Faster-Whisper e Speech Note su Linux

2.1 Installazione di faster-whisper su Windows

3 Lavorare con Faster-Whisper

4 Utilizzo di Faster-Whisper su Linux

5 Utilizzo di Faster-Whisper su Windows

6 Lavorando con Speech Note

7 Conclusione

La trascrizione del parlato in testo e l’elaborazione del linguaggio naturale hanno fatto passi da gigante negli ultimi anni, grazie ai progressi nell’apprendimento automatico e nei network neurali profondi. Il modello Whisper di OpenAI è uno di quelli che ha guadagnato popolarità per la sua capacità di trascrivere file audio e eseguire traduzioni linguistiche. In questo articolo, esploreremo alcuni strumenti installabili localmente per lavorare con Faster-Whisper e Speech Note su Windows e Linux, che offrono una gamma di opzioni per trascrivere file audio e eseguire traduzioni linguistiche sulla tua macchina locale. Così potrai avere il tuo proprio sistema di trascrizione del parlato in testo in funzione su Windows e Linux.

Panoramica degli strumenti di trascrizione del parlato in testo Whisper, Faster-Whisper e Speech Note

Il modello di riconoscimento vocale Whisper di OpenAI è molto popolare per la trascrizione di file audio e la traduzione linguistica. Tuttavia, presenta alcune limitazioni in termini di velocità e utilizzo della memoria. Per affrontare questi problemi, sono stati sviluppati due strumenti: Faster-Whisper e Speech Note.

Faster-Whisper è una reimplementazione di Whisper che utilizza CTranslate2, un motore di inferenza veloce per modelli Transformer. Questa implementazione è fino a 4 volte più rapida di openai/whisper e può ridurre ulteriormente l’utilizzo della memoria con la quantizzazione su CPU e GPU.

Speech Note, d’altra parte, è un’applicazione desktop per Linux che fornisce un’interfaccia facile da usare per il riconoscimento vocale e la presa di appunti. È in grado di utilizzare Whisper come modello sottostante, ma offre funzionalità aggiuntive come la registrazione del microfono, l’editing del testo e opzioni di esportazione semplici.

Ecco gli strumenti hanno ciascuno i loro vantaggi unici e possono essere utilizzati a seconda delle esigenze specifiche dell’utente. Faster-Whisper è ideale per coloro che richiedono velocità di trascrizione più rapide e un uso della memoria più basso, mentre Speech Note è adatto per gli utenti Linux che preferiscono un’interfaccia più user-friendly con funzionalità aggiuntive oltre al riconoscimento vocale.

Per gli utenti Windows, c’è una sezione separata sotto. Abbiamo anche dedicato un articolo separato agli strumenti di trascrizione vocale per Windows, che sono convenienti da installare e utilizzare.

Installazione di Faster-Whisper e Speech Note su Linux

Su Linux, Faster-Whisper può essere installato da PyPI utilizzando pip.

pip install faster-whisper-cli

Nota di discorso è un’applicazione desktop Linux che può essere scaricata e installata da Flathub.

Installazione di faster-whisper su Windows

Se si lavora con Windows, è possibile scaricare un eseguibile standalone di faster-whisper da qui. Leggi come utilizzarlo nella sezione successiva.

Lavorare con Faster-Whisper

Faster-Whisper può essere utilizzato per trascrivere file audio e eseguire traduzioni linguistiche sulla propria macchina locale. È una reimplementazione di Whisper che utilizza CTranslate2, un motore di inferenza rapido per modelli Transformer. Questa implementazione è fino a 4 volte più veloce di openai/whisper e può ridurre ulteriormente l’utilizzo della memoria con quantizzazione sia sulla CPU che sulla GPU.

Utilizzo di Faster-Whisper su Linux

Di seguito è possibile utilizzare faster-whisper dalla riga di comando per trascrivere un file audio:

faster-whisper myaudio.mp3 > transcript.txt

Questo comando trascriberà il file myaudio.mp3 in un file di testo chiamato transcript.txt. È anche possibile specificare opzioni aggiuntive, come la lingua e le dimensioni del beam:

faster-whisper --language en --beam_size 5 myaudio.mp3 > transcript.txt

Utilizzo di Faster-Whisper su Windows

Apriamo Esplora risorse e navigiamo fino al percorso dove abbiamo scaricato il file whisper-faster.exe.
Copiamo il file audio che vogliamo trascrivere nella stessa posizione.
Selezioniamo File -> Apri PowerShell di Windows.
Digitiamo il nome dell’eseguibile con una barra rovesciata e un punto iniziale:
.\whisper-faster.exe
Aggiungiamo uno spazio e appendiamo il nome del file audio, anch’esso con una barra rovesciata e un punto iniziale:
.\whisper-faster.exe .\myaudio.mp3
Premiamo Invio. Ora whisper-velocity scaricherà i modelli richiesti e trascriverà il nostro file audio. Poiché i modelli sono abbastanza grandi (diversi gigabyte), ciò potrebbe richiedere del tempo. Tuttavia, lo scaricamento avverrà solo alla prima esecuzione, tutte le esecuzioni successive saranno molto più rapide.
Possiamo anche utilizzare opzioni avanzate come descritto nel paragrafo sopra.

Lavorando con Speech Note

Nota di Voce è un’applicazione desktop per Linux per il riconoscimento vocale e la presa di appunti. Fornisce un’interfaccia facile da usare per trascrivere file audio e eseguire traduzioni linguistiche.

Ecco come utilizzare Nota di Voce:

Avvia Nota di Voce e seleziona il tuo modello di lingua preferito.
Clicca sul pulsante Ascolta per utilizzare il registratore audio integrato.
La tua voce viene trascritta automaticamente in testo.
Modifica la trascrizione come necessario utilizzando l’editor di testo integrato.
Esporta o copia la trascrizione in un file di testo.

Conclusione

Faster-Whisper e Nota di Voce forniscono un set di strumenti potenti installabili localmente per il riconoscimento vocale e l’elaborazione del linguaggio naturale. Dalla interfaccia a riga di comando (CLI) all’applicazione desktop, questi strumenti offrono una gamma di opzioni per trascrivere file audio e eseguire traduzioni linguistiche sulla tua macchina locale.

Con la loro alta precisione, inferenza veloce e interfacce facilmente utilizzabili, questi strumenti sono una scelta eccellente per applicazioni di riconoscimento vocale e elaborazione del linguaggio naturale. Che tu stia trascrivendo file audio, eseguendo traduzioni linguistiche o prendendo appunti con Speech Note, c’è uno strumento installabile localmente che può aiutarti a portare a termine il lavoro.

Share it

Comments

2 risposte a “Strumenti installati localmente per la trascrizione e la traduzione da parlato a testo con Faster-Whisper e Speech Note su Windows e Linux”

Whisper-Faster.exe Alternative Speech-to-Text Conversion Tools
01/22/2024
[…] our last article, we focused on Locally Installed Transcription Tools for both Windows and Linux. However, the instructions for those of you using Microsoft Windows were […]
The Power of Live Transcription
08/07/2024
[…] pueden utilizar estos hallazgos para tomar decisiones informadas sobre la asignación de recursos, el entrenamiento de personal y la optimización de procesos. Identificar áreas donde se puede […]