Transcripción local de voz a texto en Windows y Linux • Online Speech to Text Cloud

Contents hide

1 Resumen de las herramientas de transcripción de voz a texto Whisper, Faster-Whisper y Speech Note

2 Instalación de Faster-Whisper y Speech Note en Linux

2.1 Instalación de faster-whisper en Windows

3 Trabajando con Faster-Whisper

4 Uso de Faster-Whisper en Linux

5 Uso de Faster-Whisper en Windows

6 Trabajando con Speech Note

7 Conclusión

La transcripción de voz a texto y el procesamiento de lenguaje natural han avanzado mucho en los últimos años, gracias a los avances en aprendizaje automático y redes neuronales profundas. El modelo Whisper de OpenAI es uno de ellos que ha ganado popularidad por su capacidad para transcribir archivos de audio y realizar traducción de idiomas. En este artículo, exploraremos varias herramientas instalables localmente para trabajar con Faster-Whisper y Speech Note en Windows y Linux, que proporcionan una variedad de opciones para transcribir archivos de audio y realizar traducción de idiomas en su máquina local. Así que puede obtener su propia transcripción de voz a texto local funcionando en Windows y Linux.

Resumen de las herramientas de transcripción de voz a texto Whisper, Faster-Whisper y Speech Note

El modelo de reconocimiento de voz Whisper de OpenAI es muy popular para transcribir archivos de audio y realizar traducciones lingüísticas. Sin embargo, tiene algunas limitaciones en cuanto a velocidad y uso de memoria. Para abordar estos problemas, se han desarrollado dos herramientas adicionales: Faster-Whisper y Speech Note.

Faster-Whisper es una reimplementación de Whisper que utiliza CTranslate2, un motor de inferencia rápido para modelos Transformer. Esta implementación es hasta 4 veces más rápida que openai/whisper y puede reducir aún más el uso de memoria con cuantización en CPU y GPU.

Por otro lado, Speech Note es una aplicación de escritorio para Linux que proporciona una interfaz fácil de usar para el reconocimiento de voz y la toma de notas. Puede utilizar Whisper como modelo subyacente, pero ofrece características adicionales como grabación de micrófono, edición de texto y opciones de exportación simples.

Cada una de estas herramientas tiene sus ventajas únicas y puede ser utilizada según las necesidades específicas del usuario. Faster-Whisper es ideal para aquellos que requieren velocidades de transcripción más rápidas y un uso de memoria más bajo, mientras que Speech Note es adecuado para usuarios de Linux que prefieren una interfaz más amigable con características adicionales más allá del reconocimiento de voz.

Para usuarios de Windows, hay una sección separada abajo. También dedicamos un artículo separado a herramientas de reconocimiento de voz para Windows que son convenientes de instalar y ejecutar.

Instalación de Faster-Whisper y Speech Note en Linux

En Linux, Faster-Whisper se puede instalar desde PyPI utilizando pip.

pip install faster-whisper-cli

Nota de Voz es una aplicación de escritorio de Linux que se puede descargar e instalar desde Flathub.

Instalación de faster-whisper en Windows

Si trabaja con Windows, puede descargar un ejecutable independiente de faster-whisper desde Faster-Whisper-XXL_r192.3.4_windows.7z. Lea más sobre cómo utilizarlo en la siguiente sección.

Trabajando con Faster-Whisper

Faster-Whisper se puede utilizar para transcribir archivos de audio y realizar traducciones lingüísticas en su máquina local. Es una reimplementación de Whisper que utiliza CTranslate2, un motor de inferencia rápido para modelos de transformadores. Esta implementación es hasta 4 veces más rápida que openai/whisper y puede reducir aún más el uso de memoria con cuantificación tanto en CPU como en GPU.

Uso de Faster-Whisper en Linux

A continuación, se puede utilizar faster-whisper desde la línea de comandos para transcribir un archivo de audio:

faster-whisper myaudio.mp3 > transcript.txt

Este comando transcribirá el archivo myaudio.mp3 en un archivo de texto llamado transcript.txt. También puede especificar opciones adicionales, como el idioma y el tamaño de haz:

faster-whisper --language en --beam_size 5 myaudio.mp3 > transcript.txt

Uso de Faster-Whisper en Windows

Abrir Explorador de Windows y navegar hasta la ruta donde descargó el archivo whisper-faster.exe.
Copiar el archivo de audio que desea transcribir a la misma ubicación.
Seleccionar Archivo -> Abrir Windows PowerShell.
Escribir el nombre del ejecutable con un punto y barra invertida al principio:
.\whisper-faster.exe
Agregar un espacio y anexar el nombre del archivo de audio, también con un punto y barra invertida al principio:
.\whisper-faster.exe .\myaudio.mp3
Presionar Entrar. Ahora, whisper-faster descargar los modelos necesarios y transcribirá su archivo de audio. Como los modelos son muy grandes (varios Gigabytes), esto puede tomar algún tiempo. Pero la descarga solo ocurrirá en la primera ejecución; todas las ejecuciones sucesivas serán mucho más rápidas.
También puede utilizar opciones avanzadas como se describe en el párrafo anterior.

Trabajando con Speech Note

Speech Note es una aplicación de escritorio de Linux para reconocimiento de voz y toma de notas. Ofrece una interfaz fácil de usar para transcribir archivos de audio y realizar traducción lingüística.

Aquí está cómo utilizar Nota de Voz:

Inicie Nota de Voz y seleccione su modelo de lenguaje preferido.
Haga clic en el botón Escuchar para utilizar el grabador de audio integrado.
Su voz se transcribe automáticamente a texto.
Edite la transcripción según sea necesario utilizando el editor de texto integrado.
Exporte o copie la transcripción a un archivo de texto.

Conclusión

Faster-Whisper y Nota de Voz proporcionan una potente herramienta instalable localmente para reconocimiento de voz y procesamiento de lenguaje natural. Desde la interfaz de línea de comandos (CLI) hasta la aplicación de escritorio, estas herramientas ofrecen una variedad de opciones para transcribir archivos de audio y realizar traducción lingüística en su máquina local.

Con su alta precisión, inferencia rápida y interfaces fáciles de usar, estas herramientas son una excelente opción para aplicaciones de reconocimiento de voz y procesamiento de lenguaje natural. Ya sea que esté transcribiendo archivos de audio, realizando traducciones lingüísticas o tomando notas con Speech Note, hay una herramienta instalable localmente que puede ayudarlo a hacer el trabajo.

Share it

Comments

2 respuestas a «Herramientas de instalación local para la transcripción y traducción de voz a texto con Faster-Whisper y Speech Note en Windows y Linux»

Whisper-Faster.exe Alternative Speech-to-Text Conversion Tools
01/22/2024
[…] our last article, we focused on Locally Installed Transcription Tools for both Windows and Linux. However, the instructions for those of you using Microsoft Windows were […]
The Power of Live Transcription
08/07/2024
[…] pueden utilizar estos hallazgos para tomar decisiones informadas sobre la asignación de recursos, el entrenamiento de personal y la optimización de procesos. Identificar áreas donde se puede […]