Τοπικά εγκατεστημένα εργαλεία για μεταγραφή και μετάφραση από ομιλία σε κείμενο με το Faster-Whisper και το Speech Note σε Windows και Linux

Home » Blog » Locally Installed Tools for Speech-to-Text Transcription and Translation with Faster-Whisper and Speech Note on Windows and Linux

Η Προφορά-Στο-Κείμενο μεταγραφή και η επεξεργασία φυσικής γλώσσας έχουν προχωρήσει πολύ τα τελευταία χρόνια, χάρη στις πρόοδους στο μάθηση μηχανών και στα βαθιά νευρωνικά δίκτυα. Το Whisper της OpenAI είναι ένα τέτοιο μοντέλο που έχει κερδίσει δημοσιότητα για την ικανότητά του να μεταγράφει αρχεία ήχου και να πραγματοποιεί μετάφραση γλώσσας. Σε αυτό το άρθρο, θα εξερευνήσουμε διάφορα εργαλεία που μπορούν να εγκατασταθούν τοπικά για εργασία με Faster-Whisper και Speech Note στα Windows και Linux, τα οποία παρέχουν μια σειρά επιλογών για μεταγραφή αρχείων ήχου και μετάφραση γλώσσας στο τοπικό σας μηχάνημα. Έτσι μπορείτε να εγκαταστήσετε το δικό σας τοπικό σύστημα Προφορά-Στο-Κείμενο μεταγραφής στα Windows και Linux.

Περίληψη των εργαλείων Προφορά-Στο-Κείμενο μεταγραφής Whisper, Faster-Whisper, και Speech Note

Η δημοφιλής μοντέλα αναγνώρισης ομιλίας Whisper της OpenAI μπορεί να μεταγράφει αρχεία ήχου και να πραγματοποιεί μετάφραση γλώσσας. Ωστόσο, έχει ορισμένα περιοριστικά στοιχεία όσον αφορά τη ταχύτητα και την κατανάλωση μνήμης. Για να αντιμετωπιστούν αυτά τα ζητήματα, έχουν αναπτυχθεί δύο άλλα εργαλεία: το Faster-Whisper και το Speech Note.

Το Faster-Whisper είναι μια επαναδημιουργία της Whisper που χρησιμοποιεί το CTranslate2, ένα γρήγορο μηχανή inference για μοντέλα Transformer. Αυτή η υλοποίηση είναι έως και 4 φορές ταχύτερη από το openai/whisper και μπορεί να μειώσει περαιτέρω την κατανάλωση μνήμης με κβαντισμό τόσο στην ΚΠΕ όσο και στο ΓΚΠΕ.

Το Speech Note, από την άλλη πλευρά, είναι μια εφαρμογή επιφάνειας εργασίας για Λίνουξ που παρέχει ένα εύκολο στην χρήση διασύνδεση για αναγνώριση ομιλίας και σημειωματισμό. Μπορεί να χρησιμοποιεί τη Whisper ως το υποκείμενο μοντέλο της, αλλά προσφέρει επιπλέον χαρακτηριστικά όπως ηχογράφηση μικροφώνου, επεξεργασία κειμένου και απλές επιλογές εξαγωγής.

Οι παρακάτω εργαλεία έχουν τις μοναδικές τους πλεονεκτήματα και μπορούν να χρησιμοποιηθούν ανάλογα με τις συγκεκριμένες ανάγκες του χρήστη. Το Faster-Whisper είναι ιδανικό για εκείνους που απαιτούν υψηλότερες ταχύτητες μεταγραφής και χαμηλότερη χρήση μνήμης, ενώ το Speech Note είναι κατάλληλο για τους χρήστες Linux που προτιμούν ένα περισσότερο φιλικό προς τον χρήστη διασύνδεση με πρόσθετα χαρακτηριστικά πέρα από την αναγνώριση ομιλίας.

Για τους χρήστες Windows, υπάρχει ξεχωριστή ενότητα κάτω. Επίσης, αφιερώσαμε ένα ξεχωριστό άρθρο για τα εργαλεία Speech-to-Text για Windows, που είναι βολικά να εγκατασταθούν και να εκτελεστούν.

Εγκατάσταση του Faster-Whisper και του Speech Note στο Linux

Στο Linux, το Faster-Whisper μπορεί να εγκατασταθεί από το PyPI χρησιμοποιώντας pip.

pip install faster-whisper-cli

Το Προσθήκη Ομιλίας είναι μια εφαρμογή επιφάνειας εργασίας Linux που μπορεί να κατέβει και να εγκατασταθεί από το Flathub.

Εγκατάσταση του Faster-Whisper στο Windows

Εάν εργάζεστε με το Windows, μπορείτε να κατεβάσετε ένα αυτόνομο εκτελέσιμο αρχείο του Faster-Whisper από εδώ. Διαβάστε περισσότερα σχετικά με το πώς να το χρησιμοποιήσετε στο επόμενο τμήμα.

Εργασία με το Faster-Whisper

Το Faster-Whisper μπορεί να χρησιμοποιηθεί για τη μεταγραφή αρχείων ήχου και την πραγματοποίηση μετάφρασης γλώσσας στη местachine σας. Είναι μια επανεκτέλεση του Whisper που χρησιμοποιεί το CTranslate2, ένα γρήγορο μηχανή inference για μοντέλα Transformer. Αυτή η υλοποίηση είναι έως και 4 φορές ταχύτερη από το openai/whisper και μπορεί να μειώσει περαιτέρω τη χρήση μνήμης με κβαντοποίηση τόσο στο CPU όσο και στο GPU.

Χρήση του Faster-Whisper στο Linux

Από τη γραμμή εντολών, μπορείτε να χρησιμοποιήσετε το faster-whisper για τη μεταγραφή ενός αρχείου ήχου:

faster-whisper myaudio.mp3 > transcript.txt

Η αυτή η εντολή θα μεταγράψει το αρχείο myaudio.mp3 σε ένα αρχείο κειμένου με όνομα transcript.txt. Επίσης, μπορείτε να καθορίσετε επιπλέον παραμέτρους, όπως τη γλώσσα και το μέγεθος δέσμης:

faster-whisper --language en --beam_size 5 myaudio.mp3 > transcript.txt

Χρησιμοποιώντας το Faster-Whisper στα Windows

Whisper Standalone local Speech-to-Text Transcription on Windows
  1. Ανοίξτε τον Εξερορέρ του Windows και πηγαίνετε στη διαδρομή όπου κατέβασε το αρχείο whisper-faster.exe.
  2. Αντιγράψτε το αρχείο ήχου που θέλετε να μεταγράψετε στη ίδια θέση.
  3. Επιλέξτε Αρχείο -> Ανοίξτε PowerShell του Windows.

    Where to find the Windos PowerShell file menu
  4. Γράψτε το όνομα της εκτελέσιμης εφαρμογής με μια τελεία και μια οπισθοδρόμηση:
    .\whisper-faster.exe
  5. Προσθέστε ένα κενό χώρο και προσαρμόστε το όνομα του αρχείου ήχου, επίσης με μια τελεία και μια οπισθοδρόμηση:
    .\whisper-faster.exe .\myaudio.mp3
  6. Пιέστε Enter. Τώρα το whisper-faster θα κατεβάσει τα απαραίτητα μοντέλα και θα μεταγράψει το αρχείο ήχου σας. Επειδή τα μοντέλα είναι αρκετά μεγάλα (πολλαπλές γιγαμπά이) αυτό μπορεί να διαρκέσει λίγο χρόνο. Αλλά η λήψη θα συμβεί μόνο την πρώτη φορά, και όλες οι επόμενες εκτελέσεις θα είναι πολύ πιο γρήγορες.
  7. Мπορείτε επίσης να χρησιμοποιήσετε προηγμένες επιλογές όπως στο παρακάτω παρagrafo πάνω.

Εργασία με το Σημείωμα Ομιλίας

Speech Note local Speech-to-Text Transcription on Linux

Το Σημειωματάριο Ομιλίας είναι μια εφαρμογή επιφάνειας εργασίας Linux για αναγνώριση ομιλίας και λήψη σημειώσεων. Παρέχει ένα εύκολο στην χρήση διασύνδεση για μεταγραφή ήχου αρχείων και εκτέλεση μετάφρασης γλώσσας.

Πώς να χρησιμοποιήσετε το Σημειωματάριο Ομιλίας:

  1. Εκκινήστε το Σημειωματάριο Ομιλίας και επιλέξτε το προτιμώμενο μοντέλο γλώσσας σας.
  2. Кάντε κλικ στο κουμπί Ακούω για να χρησιμοποιήσετε τον ενσωματωμένο ηχολόγο.
  3. Η φωνή σας μεταγράφεται αυτόματα σε κείμενο.
  4. Επεξεργαστεί το μεταγραμμένο κείμενο όπως χρειάζεστε χρησιμοποιώντας τον ενσωματωμένο επεξεργαστή κειμένου.
  5. Εξαγάγετε ή αντιγράψτε το μεταγραμμένο κείμενο σε ένα αρχείο κειμένου.

Συμπέρασμα

Τα Faster-Whisper και Σημειωματάριο Ομιλίας παρέχουν ένα ισχυρό σύνολο εργαλείων εγκατάστασης στο τοπικό σας μηχάνημα για αναγνώριση ομιλίας και επεξεργασία φυσικής γλώσσας. Από τη διασύνδεση γραμμής εντολών (CLI) έως την εφαρμογή επιφάνειας εργασίας, αυτά τα εργαλεία προσφέρουν μια σειρά από επιλογές για μεταγραφή ήχου αρχείων και εκτέλεση μετάφρασης γλώσσας στο τοπικό σας μηχάνημα.

Με την υψηλή τους ακρίβεια, τη γρήγορη εξαγωγή και τις εύκολες διασυνδέσεις, αυτά τα εργαλεία αποτελούν μια εξαιρετική επιλογή για εφαρμογές αναγνώρισης ομιλίας και επεξεργασίας φυσικής γλώσσας. Εάν πρέπει να μεταγράψετε αρχεία ήχου, να εκτελέσετε μετάφραση γλώσσας ή να παίρνετε σημειώσεις με το Speech Note, υπάρχει ένα εργαλείο που μπορεί να εγκατασταθεί τοπικά και να σας βοηθήσει να ολοκληρώσετε την εργασία σας.

Share it

Comments

1 απάντηση στο “Τοπικά εγκατεστημένα εργαλεία για μεταγραφή και μετάφραση από ομιλία σε κείμενο με το Faster-Whisper και το Speech Note σε Windows και Linux”

  1. […] our last article, we focused on Locally Installed Transcription Tools for both Windows and Linux. However, the instructions for those of you using Microsoft Windows were […]