Subtítulos automáticos — Gratis en línea

Acerca de Subtítulos automáticos

Los subtítulos automáticos de AntiUpload son un transcriptor de voz a texto integrado en el navegador que ejecuta el modelo Whisper (el mismo modelo de código abierto que impulsa la API de audio de OpenAI) por completo en tu dispositivo. Suelta un archivo de audio o vídeo y obtendrás un archivo de subtítulos en SRT, VTT, texto plano, JSON o el formato ASS palabra por palabra al estilo TikTok. El modelo se ejecuta en un Web Worker mediante la biblioteca @xenova/transformers.js; ningún audio se sube a ningún servidor.

Compara las cuentas: Rev / Otter / Trint cobran entre 0,10 y 0,25 $ por minuto de transcripción. Un pódcast de 1 hora cuesta entre 6 y 15 $ de transcribir en esos servicios, con el audio subido a sus servidores y procesado en su nube. La misma hora se transcribe por 0 $ aquí, con el archivo sin salir nunca de tu navegador. La primera transcripción descarga el modelo Whisper-tiny de ~75 MB desde Hugging Face; las ejecuciones siguientes reutilizan el modelo en caché, así que empiezan al instante.

El compromiso es la velocidad y la precisión. Whisper-tiny es rápido (~2-5× tiempo real en un portátil moderno) pero menos preciso que Whisper-large (el modelo que usan los servicios en la nube). Para habla limpia (pódcasts, clases, entrevistas) tiny acierta ~95 % de las palabras. Para acentos marcados, fondos ruidosos o jerga técnica, el modelo Base (145 MB, disponible como opción) ayuda. El modo de traducción fuerza el multilingüe y produce inglés desde cualquier idioma de origen: útil para material en otro idioma destinado a subtítulos para público de habla inglesa.

Cómo funciona

Suelta un archivo de audio o vídeoAdmite todos los formatos habituales: MP4, MOV, WebM, MKV, AVI para vídeo; MP3, WAV, M4A, OGG, FLAC, AAC, OPUS para audio. La herramienta extrae la pista de audio mediante FFmpeg antes de ejecutar Whisper.
Elige el formato de salida y el idiomaSRT (universal), VTT (vídeo web), TXT (transcripción plana), JSON (con marcas de tiempo) o ASS (subtítulos palabra por palabra al estilo TikTok). Ajusta el idioma a «en» para el modelo solo en inglés más rápido, «auto» para la detección de 99 idiomas, o elige un idioma concreto para la mejor precisión.
Primera ejecución: descarga del modelo (~75 MB, una sola vez)En la primera transcripción, el modelo Whisper-tiny se descarga desde el CDN de Hugging Face (~75 MB para solo inglés, ~78 MB para multilingüe). El navegador lo guarda en caché; las ejecuciones siguientes son instantáneas. Sin descarga en las posteriores.
TranscribeWhisper se ejecuta en tu CPU (con aceleración SIMD). En un portátil moderno espera ~2-5× tiempo real: un pódcast de 10 minutos se transcribe en 2-5 minutos. Los dispositivos más antiguos son más lentos; los móviles, mucho más lentos (evita el móvil para archivos de más de 5 min).
Descarga el archivo de subtítulosLa salida está alineada con las marcas de tiempo y lista para usar. Suelta el SRT en Premiere / DaVinci Resolve, o súbelo a YouTube / Vimeo como pista de subtítulos. Para incrustación al estilo TikTok, combínalo con nuestra herramienta de incrustar subtítulos.

Cuándo usar Subtítulos automáticos

Subtitular un episodio de pódcast para YouTube

Los subtítulos automáticos de YouTube son tristemente imprecisos; los subtítulos manuales tienen prioridad en las búsquedas. Genera un SRT localmente, súbelo como pista de subtítulos y obtén un texto más limpio más mejor SEO en YouTube.

Pista de subtítulos para TikTok / Reels sin pagar CapCut Pro

Elige la salida ASS (palabra por palabra) y luego incrústala con nuestra herramienta de incrustar subtítulos. Iguala el aspecto de los subtítulos automáticos de CapCut sin la suscripción de 7,99 $/mes.

Transcribir entrevistas para periodismo / investigación

Enviar audio de entrevistas sensibles a Rev u Otter plantea problemas de privacidad / consentimiento. La transcripción local mantiene el audio en tu dispositivo: ningún tercero lo escucha.

Vídeo en otro idioma → subtítulos en inglés para un cliente

Ajusta la tarea a «traducir» y el idioma de entrada a «auto»: Whisper produce subtítulos en inglés directamente desde cualquiera de los 99 idiomas de origen. Sáltate la ida y vuelta por Google Translate.

Transcripción de clases / reuniones para la accesibilidad

Genera una transcripción TXT para poder buscar en ella, o un SRT para el cumplimiento de la accesibilidad del vídeo (ADA / EAA). Gratis y privado: apropiado para contenido educativo sensible.

Preguntas frecuentes

¿Qué precisión tiene Whisper-tiny en la transcripción?

En habla limpia en inglés (pódcasts, clases), Whisper-tiny.en alcanza ~95 % de precisión por palabra, comparable a la mayoría de los servicios de pago con audio equivalente. La precisión baja con acentos marcados, jerga técnica o ruido de fondo. El modelo Base opcional (145 MB, ~2× más lento) recupera la mayor parte de esa pérdida. Whisper-large (solo en la nube vía la API de OpenAI) sigue siendo el referente, pero no es una descarga de 75 MB en el navegador.

¿Por qué la primera ejecución tarda tanto?

El primer uso descarga el modelo Whisper (~75 MB tiny, ~78 MB multilingüe, ~145 MB base) desde el CDN de Hugging Face. El navegador lo guarda en caché en IndexedDB. Cada transcripción posterior empieza al instante, sin volver a descargar. Si borras la caché de tu navegador, el modelo se vuelve a descargar en el siguiente uso.

¿De verdad mi audio no se sube nunca?

Confirmado. Abre las herramientas de desarrollo → Red → reproduce una transcripción. Las únicas solicitudes de red son: el JavaScript de la página (pequeño), el motor FFmpeg WASM en el primer uso (~12 MB), el modelo Whisper en el primer uso (~75 MB) y los recursos de la página. Ninguna solicitud contiene tu audio. La transcripción se ejecuta en un Web Worker en tu CPU.

¿Cuál es la diferencia entre el modo de transcribir y el de traducir?

Transcribir: el texto de salida está en el mismo idioma que el audio de origen (español de entrada → español de salida). Traducir: el texto de salida está en inglés sin importar el idioma de origen (español de entrada → inglés de salida). Traducir fuerza el modelo multilingüe y es más lento / algo menos preciso que transcribir, pero se salta el paso de traducción manual.

¿Puede con un pódcast / clase de 2 horas?

Sí, pero espera entre 30 y 60 minutos de tiempo de CPU en un portátil moderno. El audio se procesa por fragmentos para que el uso de memoria se mantenga acotado (Whisper-tiny necesita unos 200 MB de RAM de trabajo sin importar la duración del archivo). Para archivos de más de 30 minutos, considera cerrar otras pestañas para liberar CPU.

¿Por qué la sincronización del SRT está algo desfasada en algunos puntos?

Whisper a veces se desvía en los silencios largos (al modelo le falta la señal de duración para anclarse). Prefiltramos las regiones de silencio con detección de actividad de voz para mitigarlo: el audio típico con muchos silencios (pódcasts con música de intro) mejora entre un 30 % y un 50 % en velocidad y precisión gracias a este paso. Para una precisión de marcas de tiempo de calidad de difusión, aún querrías un servicio de pago como Descript con edición manual.

¿Cómo se compara esto con la API de pago de OpenAI Whisper?

La API de pago usa Whisper-large-v3 (bastante más preciso con audio ruidoso / con acento) y se ejecuta en los servidores de OpenAI. Cuesta 0,006 $/min (0,36 $/hora). Nuestra herramienta ejecuta el modelo más pequeño Whisper-tiny en tu dispositivo por 0 $. Para habla limpia la diferencia de precisión es pequeña (~3-5 puntos porcentuales de tasa de error por palabra). Para habla ruidosa / con acento la API es claramente mejor. Compromiso: privacidad + coste + límite de tamaño (navegador) frente a precisión (nube).

Herramientas relacionadas

Incrustar subtítulosGraba subtítulos en el vídeo Extraer audioExtrae la pista de audio de un vídeo Cortar silenciosElimina automáticamente los silencios MP4 a MP3Extrae el audio MP3 de un vídeo MP4