Legendas automáticas — Grátis online

Sobre o Legendas automáticas

As legendas automáticas do AntiUpload são um transcritor de fala para texto integrado ao navegador que executa o modelo Whisper (o mesmo modelo de código aberto que impulsiona a API de áudio da OpenAI) inteiramente no seu dispositivo. Solte um arquivo de áudio ou vídeo e você obterá um arquivo de legendas em SRT, VTT, texto simples, JSON ou o formato ASS palavra por palavra no estilo TikTok. O modelo é executado em um Web Worker via a biblioteca @xenova/transformers.js; nenhum áudio é enviado para qualquer servidor.

Compare as contas: Rev / Otter / Trint cobram entre US$ 0,10 e US$ 0,25 por minuto de transcrição. Um podcast de 1 hora custa entre US$ 6 e US$ 15 para transcrever nesses serviços, com o áudio enviado para os servidores deles e processado na nuvem deles. A mesma hora é transcrita por US$ 0 aqui, com o arquivo nunca saindo do seu navegador. A primeira transcrição baixa o modelo Whisper-tiny de ~75 MB do Hugging Face; as execuções seguintes reutilizam o modelo em cache, então começam na hora.

O compromisso é a velocidade e a precisão. Whisper-tiny é rápido (~2-5× tempo real em um notebook moderno) mas menos preciso que Whisper-large (o modelo que os serviços na nuvem usam). Para fala limpa (podcasts, aulas, entrevistas) tiny acerta ~95% das palavras. Para sotaques fortes, fundos barulhentos ou jargão técnico, o modelo Base (145 MB, disponível como opção) ajuda. O modo de tradução força o multilíngue e produz inglês de qualquer idioma de origem: útil para material em outro idioma destinado a legendas para público de língua inglesa.

Como funciona

Solte um arquivo de áudio ou vídeoAceita todos os formatos comuns: MP4, MOV, WebM, MKV, AVI para vídeo; MP3, WAV, M4A, OGG, FLAC, AAC, OPUS para áudio. A ferramenta extrai a trilha de áudio via FFmpeg antes de executar o Whisper.
Escolha o formato de saída e o idiomaSRT (universal), VTT (vídeo web), TXT (transcrição plana), JSON (com marcas de tempo) ou ASS (legendas palavra por palavra no estilo TikTok). Ajuste o idioma para "en" para o modelo só em inglês mais rápido, "auto" para a detecção de 99 idiomas, ou escolha um idioma específico para a melhor precisão.
Primeira execução: download do modelo (~75 MB, uma única vez)Na primeira transcrição, o modelo Whisper-tiny é baixado do CDN do Hugging Face (~75 MB para só inglês, ~78 MB para multilíngue). O navegador o armazena em cache; as execuções seguintes são instantâneas. Sem download nas posteriores.
TranscrevaWhisper roda na sua CPU (com aceleração SIMD). Em um notebook moderno espere ~2-5× tempo real: um podcast de 10 minutos é transcrito em 2-5 minutos. Os dispositivos mais antigos são mais lentos; os celulares, muito mais lentos (evite o celular para arquivos com mais de 5 min).
Baixe o arquivo de legendasA saída está alinhada com as marcas de tempo e pronta para usar. Solte o SRT no Premiere / DaVinci Resolve, ou envie para o YouTube / Vimeo como trilha de legendas. Para incorporação no estilo TikTok, combine com nossa ferramenta de incorporar legendas.

Quando usar o Legendas automáticas

Legendar um episódio de podcast para o YouTube

As legendas automáticas do YouTube são notoriamente imprecisas; as legendas manuais têm prioridade nas buscas. Gere um SRT localmente, envie como trilha de legendas e obtenha um texto mais limpo mais melhor SEO no YouTube.

Trilha de legendas para TikTok / Reels sem pagar CapCut Pro

Escolha a saída ASS (palavra por palavra) e depois incorpore com nossa ferramenta de incorporar legendas. Iguala o visual das legendas automáticas do CapCut sem a assinatura de US$ 7,99/mês.

Transcrever entrevistas para jornalismo / pesquisa

Enviar áudio de entrevistas sensíveis para Rev ou Otter levanta questões de privacidade / consentimento. A transcrição local mantém o áudio no seu dispositivo: nenhum terceiro o escuta.

Vídeo em outro idioma → legendas em inglês para um cliente

Ajuste a tarefa para "traduzir" e o idioma de entrada para "auto": Whisper produz legendas em inglês diretamente de qualquer um dos 99 idiomas de origem. Pule a ida e volta pelo Google Translate.

Transcrição de aulas / reuniões para acessibilidade

Gere uma transcrição TXT para poder pesquisar nela, ou um SRT para o cumprimento da acessibilidade do vídeo (ADA / EAA). Grátis e privado: apropriado para conteúdo educacional sensível.

Perguntas frequentes

Qual a precisão do Whisper-tiny na transcrição?

Em fala limpa em inglês (podcasts, aulas), Whisper-tiny.en alcança ~95% de precisão por palavra, comparável à maioria dos serviços pagos com áudio equivalente. A precisão cai com sotaques fortes, jargão técnico ou ruído de fundo. O modelo Base opcional (145 MB, ~2× mais lento) recupera a maior parte dessa perda. Whisper-large (só na nuvem via a API da OpenAI) continua sendo o referencial, mas não é um download de 75 MB no navegador.

Por que a primeira execução demora tanto?

O primeiro uso baixa o modelo Whisper (~75 MB tiny, ~78 MB multilíngue, ~145 MB base) do CDN do Hugging Face. O navegador o armazena em cache no IndexedDB. Cada transcrição posterior começa na hora, sem baixar de novo. Se você apagar o cache do seu navegador, o modelo é baixado de novo no próximo uso.

Meu áudio realmente nunca é enviado?

Confirmado. Abra as ferramentas de desenvolvedor → Rede → reproduza uma transcrição. As únicas solicitações de rede são: o JavaScript da página (pequeno), o mecanismo FFmpeg WASM no primeiro uso (~12 MB), o modelo Whisper no primeiro uso (~75 MB) e os recursos da página. Nenhuma solicitação contém seu áudio. A transcrição roda em um Web Worker na sua CPU.

Qual é a diferença entre o modo de transcrever e o de traduzir?

Transcrever: o texto de saída está no mesmo idioma que o áudio de origem (português de entrada → português de saída). Traduzir: o texto de saída está em inglês sem importar o idioma de origem (português de entrada → inglês de saída). Traduzir força o modelo multilíngue e é mais lento / um pouco menos preciso que transcrever, mas pula o passo de tradução manual.

Aguenta um podcast / aula de 2 horas?

Sim, mas espere entre 30 e 60 minutos de tempo de CPU em um notebook moderno. O áudio é processado em fragmentos para que o uso de memória se mantenha limitado (Whisper-tiny precisa de cerca de 200 MB de RAM de trabalho sem importar a duração do arquivo). Para arquivos com mais de 30 minutos, considere fechar outras abas para liberar CPU.

Por que a sincronização do SRT está um pouco fora em alguns pontos?

Whisper às vezes se desvia nos silêncios longos (ao modelo falta o sinal de duração para se ancorar). Pré-filtramos as regiões de silêncio com detecção de atividade de voz para mitigar isso: o áudio típico com muitos silêncios (podcasts com música de intro) melhora entre 30% e 50% em velocidade e precisão graças a esse passo. Para uma precisão de marcas de tempo de qualidade de difusão, você ainda iria querer um serviço pago como Descript com edição manual.

Como isso se compara à API paga do OpenAI Whisper?

A API paga usa Whisper-large-v3 (bastante mais preciso com áudio barulhento / com sotaque) e roda nos servidores da OpenAI. Custa US$ 0,006/min (US$ 0,36/hora). Nossa ferramenta executa o modelo menor Whisper-tiny no seu dispositivo por US$ 0. Para fala limpa a diferença de precisão é pequena (~3-5 pontos percentuais de taxa de erro por palavra). Para fala barulhenta / com sotaque a API é claramente melhor. Compromisso: privacidade + custo + limite de tamanho (navegador) versus precisão (nuvem).

Ferramentas relacionadas

Incrustar legendasGrave legendas no vídeo Extrair áudioExtraia a trilha de áudio de um vídeo Cortar silênciosRemova silêncios automaticamente MP4 para MP3Extraia o áudio MP3 de um vídeo MP4