Sobre o Legendas automáticas
As legendas automáticas do AntiUpload são um transcritor de fala para texto integrado ao navegador que executa o modelo Whisper (o mesmo modelo de código aberto que impulsiona a API de áudio da OpenAI) inteiramente no seu dispositivo. Solte um arquivo de áudio ou vídeo e você obterá um arquivo de legendas em SRT, VTT, texto simples, JSON ou o formato ASS palavra por palavra no estilo TikTok. O modelo é executado em um Web Worker via a biblioteca @xenova/transformers.js; nenhum áudio é enviado para qualquer servidor.
Compare as contas: Rev / Otter / Trint cobram entre US$ 0,10 e US$ 0,25 por minuto de transcrição. Um podcast de 1 hora custa entre US$ 6 e US$ 15 para transcrever nesses serviços, com o áudio enviado para os servidores deles e processado na nuvem deles. A mesma hora é transcrita por US$ 0 aqui, com o arquivo nunca saindo do seu navegador. A primeira transcrição baixa o modelo Whisper-tiny de ~75 MB do Hugging Face; as execuções seguintes reutilizam o modelo em cache, então começam na hora.
O compromisso é a velocidade e a precisão. Whisper-tiny é rápido (~2-5× tempo real em um notebook moderno) mas menos preciso que Whisper-large (o modelo que os serviços na nuvem usam). Para fala limpa (podcasts, aulas, entrevistas) tiny acerta ~95% das palavras. Para sotaques fortes, fundos barulhentos ou jargão técnico, o modelo Base (145 MB, disponível como opção) ajuda. O modo de tradução força o multilíngue e produz inglês de qualquer idioma de origem: útil para material em outro idioma destinado a legendas para público de língua inglesa.
Como funciona
- Solte um arquivo de áudio ou vídeoAceita todos os formatos comuns: MP4, MOV, WebM, MKV, AVI para vídeo; MP3, WAV, M4A, OGG, FLAC, AAC, OPUS para áudio. A ferramenta extrai a trilha de áudio via FFmpeg antes de executar o Whisper.
- Escolha o formato de saída e o idiomaSRT (universal), VTT (vídeo web), TXT (transcrição plana), JSON (com marcas de tempo) ou ASS (legendas palavra por palavra no estilo TikTok). Ajuste o idioma para "en" para o modelo só em inglês mais rápido, "auto" para a detecção de 99 idiomas, ou escolha um idioma específico para a melhor precisão.
- Primeira execução: download do modelo (~75 MB, uma única vez)Na primeira transcrição, o modelo Whisper-tiny é baixado do CDN do Hugging Face (~75 MB para só inglês, ~78 MB para multilíngue). O navegador o armazena em cache; as execuções seguintes são instantâneas. Sem download nas posteriores.
- TranscrevaWhisper roda na sua CPU (com aceleração SIMD). Em um notebook moderno espere ~2-5× tempo real: um podcast de 10 minutos é transcrito em 2-5 minutos. Os dispositivos mais antigos são mais lentos; os celulares, muito mais lentos (evite o celular para arquivos com mais de 5 min).
- Baixe o arquivo de legendasA saída está alinhada com as marcas de tempo e pronta para usar. Solte o SRT no Premiere / DaVinci Resolve, ou envie para o YouTube / Vimeo como trilha de legendas. Para incorporação no estilo TikTok, combine com nossa ferramenta de incorporar legendas.