Acerca de Subtítulos automáticos
Los subtítulos automáticos de AntiUpload son un transcriptor de voz a texto integrado en el navegador que ejecuta el modelo Whisper (el mismo modelo de código abierto que impulsa la API de audio de OpenAI) por completo en tu dispositivo. Suelta un archivo de audio o vídeo y obtendrás un archivo de subtítulos en SRT, VTT, texto plano, JSON o el formato ASS palabra por palabra al estilo TikTok. El modelo se ejecuta en un Web Worker mediante la biblioteca @xenova/transformers.js; ningún audio se sube a ningún servidor.
Compara las cuentas: Rev / Otter / Trint cobran entre 0,10 y 0,25 $ por minuto de transcripción. Un pódcast de 1 hora cuesta entre 6 y 15 $ de transcribir en esos servicios, con el audio subido a sus servidores y procesado en su nube. La misma hora se transcribe por 0 $ aquí, con el archivo sin salir nunca de tu navegador. La primera transcripción descarga el modelo Whisper-tiny de ~75 MB desde Hugging Face; las ejecuciones siguientes reutilizan el modelo en caché, así que empiezan al instante.
El compromiso es la velocidad y la precisión. Whisper-tiny es rápido (~2-5× tiempo real en un portátil moderno) pero menos preciso que Whisper-large (el modelo que usan los servicios en la nube). Para habla limpia (pódcasts, clases, entrevistas) tiny acierta ~95 % de las palabras. Para acentos marcados, fondos ruidosos o jerga técnica, el modelo Base (145 MB, disponible como opción) ayuda. El modo de traducción fuerza el multilingüe y produce inglés desde cualquier idioma de origen: útil para material en otro idioma destinado a subtítulos para público de habla inglesa.
Cómo funciona
- Suelta un archivo de audio o vídeoAdmite todos los formatos habituales: MP4, MOV, WebM, MKV, AVI para vídeo; MP3, WAV, M4A, OGG, FLAC, AAC, OPUS para audio. La herramienta extrae la pista de audio mediante FFmpeg antes de ejecutar Whisper.
- Elige el formato de salida y el idiomaSRT (universal), VTT (vídeo web), TXT (transcripción plana), JSON (con marcas de tiempo) o ASS (subtítulos palabra por palabra al estilo TikTok). Ajusta el idioma a «en» para el modelo solo en inglés más rápido, «auto» para la detección de 99 idiomas, o elige un idioma concreto para la mejor precisión.
- Primera ejecución: descarga del modelo (~75 MB, una sola vez)En la primera transcripción, el modelo Whisper-tiny se descarga desde el CDN de Hugging Face (~75 MB para solo inglés, ~78 MB para multilingüe). El navegador lo guarda en caché; las ejecuciones siguientes son instantáneas. Sin descarga en las posteriores.
- TranscribeWhisper se ejecuta en tu CPU (con aceleración SIMD). En un portátil moderno espera ~2-5× tiempo real: un pódcast de 10 minutos se transcribe en 2-5 minutos. Los dispositivos más antiguos son más lentos; los móviles, mucho más lentos (evita el móvil para archivos de más de 5 min).
- Descarga el archivo de subtítulosLa salida está alineada con las marcas de tiempo y lista para usar. Suelta el SRT en Premiere / DaVinci Resolve, o súbelo a YouTube / Vimeo como pista de subtítulos. Para incrustación al estilo TikTok, combínalo con nuestra herramienta de incrustar subtítulos.