Acerca de Cortar silencios
La herramienta Auto-Cut Silence de AntiUpload encuentra los tramos de silencio en la grabación de un podcast o vídeo y los recorta, dejando intacto el habla (o cualquier otro contenido no silencioso). Es la función de eliminación de silencios de Descript / Adobe Podcast Enhance / Riverside, gratis y ejecutándose localmente en tu navegador mediante el filtro «silencedetect» de FFmpeg. El flujo de dos pasadas: la pasada 1 analiza el audio en busca de tramos más silenciosos que tu umbral (-30 dB por defecto) que duren más que tu mínimo (0,5 s por defecto), y emite pares de marcas de tiempo silence_start / silence_end. La pasada 2 los invierte en rangos de habla (con un relleno configurable para que las palabras no se corten en los puntos de corte), construye un grafo filter_complex que recorta cada rango de habla y los vuelve a concatenar.
La economía importa: Descript cobra 24 $/mes por la suite de edición que incluye esta función; Adobe Podcast (el competidor gratuito más cercano) limita el plan gratuito a 1 hora/mes con problemas de calidad intermitentes. Nuestra herramienta se ejecuta localmente, no tiene límite de tiempo y produce una salida predecible (tú controlas el umbral y el relleno, no un modelo de aprendizaje automático opaco). El compromiso: usamos un detector de silencio sencillo basado en energía (silencedetect de FFmpeg), no el detector consciente del habla que usa Descript. Si tienes música de fondo que en algunos puntos baja del umbral, nuestra herramienta la cortará; el modelo de Descript sabe «todavía hay música por debajo, no cortes». Para contenido de voz pura (podcasts sin música de fondo, mensajes de voz, grabaciones de reuniones), el detector sencillo iguala el comportamiento del detector inteligente sin coste alguno.
El umbral (-30 dB por defecto) y la duración mínima de silencio (0,5 s por defecto) son los dos mandos principales. Un umbral más bajo (más negativo, p. ej. -40 dB) corta solo las partes realmente silenciosas: más seguro, conservador. Uno más alto (menos negativo, p. ej. -20 dB) cuenta como «silencio» el ruido ambiente más bajo: corte agresivo. El relleno (0,15 s por defecto) es el margen de habla que se conserva a cada lado de cada corte para que la primera y la última palabra de cada segmento no se recorten. Funciona tanto con archivos de audio como de vídeo: en vídeo, la imagen permanece sincronizada con los cortes de audio porque recortamos ambos flujos a la vez y recodificamos el resultado.
Cómo funciona
- Suelta tu archivo de audio o vídeoAdmite todos los contenedores de vídeo habituales (MP4 / MOV / WebM / MKV / AVI) y todos los formatos de audio habituales (MP3 / WAV / M4A / OGG / FLAC / AAC / OPUS). El vídeo permanece sincronizado con los cortes de audio.
- Ajusta el umbral de silencio (dB)-30 dB por defecto funciona para la voz típica de un podcast o de Zoom. -40 dB para grabaciones muy silenciosas (un niño durmiendo cerca, un suelo de ruido ambiente que hay que respetar). -25 dB si tu audio es alto y quieres cortes agresivos.
- Ajusta el silencio mínimo (segundos)0,5 s por defecto conserva las pausas naturales («eh», tiempo de reflexión) y corta solo el tiempo muerto más largo. Súbelo a 1,0 s para cortes más conservadores. Bájalo a 0,3 s para un ritmo agresivo.
- Ajusta el relleno (segundos)0,15 s por defecto conserva un pequeño margen de habla a cada lado de cada corte para que las palabras no se recorten. Súbelo a 0,25 s si oyes fragmentos de palabras en los puntos de corte. Bájalo a 0,05 s para un ritmo más ajustado si tu habla es limpia.
- Haz clic en Eliminar silenciosLa pasada 1 analiza el audio (~10 % del tiempo total). La pasada 2 recorta y concatena los segmentos de habla (~90 %). La salida conserva el formato de origen para las entradas de audio; las entradas de vídeo siempre salen como MP4.