Lokalt installerade verktyg för tal-till-text-transkription och översättning med Faster-Whisper och Speech Note på Windows och Linux

Home » Blog » Locally Installed Tools for Speech-to-Text Transcription and Translation with Faster-Whisper and Speech Note on Windows and Linux

Tal-till-text-transkription och naturligt språkbehandling har gjort stora framsteg på senare år, tack vare framstegen inom maskinlärning och djupa neuronnät. OpenAI:s Whisper är ett sådant modell som har vunnit popularitet för sin förmåga att transkribera ljudfiler och utföra språk översättning. I den här artikeln kommer vi att undersöka flera lokalt installerbare verktyg för arbete med Faster-Whisper och Speech Note på Windows och Linux, vilket erbjuder ett antal alternativ för transkription av ljudfiler och språk översättning på din lokala maskin. Så du kan få din egen lokala Tal-till-text-transkription igång på Windows och Linux.

Överblick över Tal-till-text-transkriptionsverktygen Whisper, Faster-Whisper och Speech Note

OpenAIs Whisper är ett populärt taligenkänningsmodell som kan transkribera ljudfiler och utföra språk översättning. Det har dock några begränsningar när det gäller hastighet och minnesanvändning. För att åtgärda dessa problem har två andra verktyg utvecklats: Faster-Whisper och Speech Note.

Faster-Whisper är en återimplementering av Whisper som använder CTranslate2, en snabb inferensmotor för Transformer-modeller. Denna implementation är upp till 4 gånger snabbare än openai/whisper och kan ytterligare minska minnesanvändningen med kvantisering på både CPU och GPU.

Speech Note, å andra sidan, är en Linux-skrivbordsapplikation som erbjuder ett användarvänligt gränssnitt för taligenkänning och anteckningar. Den kan använda Whisper som underliggande modell men erbjuder ytterligare funktioner såsom mikrofoninspelning, textredigering och enkla exportalternativ.

Var och en av dessa verktyg har sina unika fördelar och kan användas beroende på användarens specifika behov. Faster-Whisper är idealiskt för de som kräver snabbare transkriptionshastigheter och lägre minnesanvändning, medan Speech Note är lämpligt för Linux-användare som föredrar ett mer användarvänligt gränssnitt med ytterligare funktioner bortom taligenkänning.

För Windows-användare finns en separat avdelning nedan. Vi har också dedikerat en separat artikel till tal-till-text-verktyg för Windows, som är bekväma att installera och köra.

Installation av Faster-Whisper och Speech Note på Linux

På Linux kan Faster-Whisper installeras från PyPI med hjälp av pip.

pip install faster-whisper-cli

Speech Note är ett Linux-skrivbordprogram som kan laddas ner och installeras från Flathub.

Installation av faster-whisper på Windows

Om du arbetar med Windows kan du ladda ner en standalone-körbar för faster-whisper från här. Läs mer om hur du använder det i nästa avsnitt.

Arbete med Faster-Whisper

Faster-Whisper kan användas för att transkribera ljudfiler och utföra språk översättning på din lokala maskin. Det är en återimplementation av Whisper som använder CTranslate2, en snabb inferensmotor för Transformer-modeller. Denna implementation är upp till 4 gånger snabbare än openai/whisper och kan ytterligare minska minnesanvändningen med kvantisering på både CPU och GPU.

Använda Faster-Whisper på Linux

Från kommandoraden kan du använda faster-whisper för att transkribera en ljudfil:

faster-whisper myaudio.mp3 > transcript.txt

Det här kommandot kommer att transkribera filen myaudio.mp3 till en textfil som heter transcript.txt. Du kan också ange ytterligare alternativ, såsom språket och strålens storlek:

faster-whisper --language en --beam_size 5 myaudio.mp3 > transcript.txt

Använda Faster-Whisper på Windows

Whisper Standalone local Speech-to-Text Transcription on Windows
  1. Öppna Utforskaren och navigera till sökvägen där du laddade ner whisper-faster.exe.
  2. Kopiera ljudfilen du vill transkribera till samma plats.
  3. Välj Fil -> Öppna Windows PowerShell.

    Where to find the Windos PowerShell file menu
  4. Skriv in namnet på körbara filen med en ledande punkt och bakslash:
    .\whisper-faster.exe
  5. Lägg till ett mellanslag och bifoga ljudfilens namn, även med en ledande punkt och bakslash:
    .\whisper-faster.exe .\myaudio.mp3
  6. Tryck på Retur. Nu kommer whisper-faster att ladda ner de nödvändiga modellerna och transkribera din ljudfil. Eftersom modellerna är ganska stora (flera gigabyte) kan detta ta några minuter. Men nedladdningen kommer bara att ske vid första körningen, alla efterföljande körningar kommer att vara mycket snabbare.
  7. Du kan också använda avancerade alternativ som beskrivs i stycket ovan.

Arbeta med Speech Note

Speech Note local Speech-to-Text Transcription on Linux

Talnotis är en Linux-skrivbordstillämpning för taligenkänning och anteckningar. Den erbjuder ett lättanvänt gränssnitt för att transkribera ljudfiler och utföra språköversättning.

Här är hur du använder Talnotis:

  1. Starta Talnotis och välj din föredragna språkmodell.
  2. Klicka på Lyssna-knappen för att använda den inbyggda ljudinspelaren.
  3. Din röst transkriberas automatiskt till text.
  4. Redigera transkriptet vid behov med hjälp av den inbyggda texteditorn.
  5. Exportera eller kopiera transkriptet till en textfil.

Slutsats

Faster-Whisper och Talnotis erbjuder ett kraftfullt verktyg för taligenkänning och naturligt språkbehandling som kan installeras lokalt. Från kommandoradssnittet (CLI) till skrivbordstillämpningen, erbjuder dessa verktyg ett brett utbud av alternativ för att transkribera ljudfiler och utföra språköversättning på din lokala maskin.

Med hög precision, snabb inferens och lätta att använda gränssnitt är dessa verktyg ett utmärkt val för taligenkänning och naturligt språkbehandling. Oavsett om du transkriberar ljudfiler, utför språköversättning eller tar anteckningar med Speech Note finns det ett lokalt installerbart verktyg som kan hjälpa dig att få jobbet gjort.

Share it

Comments

1 svar till ”Lokalt installerade verktyg för tal-till-text-transkription och översättning med Faster-Whisper och Speech Note på Windows och Linux”

  1. […] our last article, we focused on Locally Installed Transcription Tools for both Windows and Linux. However, the instructions for those of you using Microsoft Windows were […]