À propos de Sous-titres automatiques
Les sous-titres automatiques d'AntiUpload sont un transcripteur parole-vers-texte intégré au navigateur qui exécute le modèle Whisper (le même modèle open source qui propulse l'API audio d'OpenAI) entièrement sur votre appareil. Déposez un fichier audio ou vidéo et vous obtiendrez un fichier de sous-titres en SRT, VTT, texte brut, JSON ou le format ASS mot à mot façon TikTok. Le modèle s'exécute dans un Web Worker via la bibliothèque @xenova/transformers.js ; aucun audio n'est téléversé sur un quelconque serveur.
Comparez les chiffres : Rev / Otter / Trint facturent entre 0,10 et 0,25 $ par minute de transcription. Un podcast d'1 heure coûte entre 6 et 15 $ à transcrire sur ces services, avec l'audio téléversé sur leurs serveurs et traité dans leur cloud. La même heure se transcrit pour 0 $ ici, avec le fichier qui ne quitte jamais votre navigateur. La première transcription télécharge le modèle Whisper-tiny d'environ 75 Mo depuis Hugging Face ; les exécutions suivantes réutilisent le modèle mis en cache et démarrent donc instantanément.
Le compromis est la vitesse et la précision. Whisper-tiny est rapide (~2-5× temps réel sur un ordinateur portable moderne) mais moins précis que Whisper-large (le modèle qu'utilisent les services cloud). Pour la parole propre (podcasts, cours, interviews), tiny atteint ~95 % des mots. Pour les accents marqués, les fonds bruyants ou le jargon technique, le modèle Base (145 Mo, disponible en option) aide. Le mode traduction force le multilingue et produit de l'anglais depuis n'importe quelle langue source : utile pour le matériel en langue étrangère destiné à des sous-titres pour un public anglophone.
Comment ça marche
- Déposez un fichier audio ou vidéoPrend en charge tous les formats courants : MP4, MOV, WebM, MKV, AVI pour la vidéo ; MP3, WAV, M4A, OGG, FLAC, AAC, OPUS pour l'audio. L'outil extrait la piste audio via FFmpeg avant d'exécuter Whisper.
- Choisissez le format de sortie et la langueSRT (universel), VTT (vidéo web), TXT (transcription brute), JSON (avec horodatages) ou ASS (sous-titres mot à mot façon TikTok). Réglez la langue sur « en » pour le modèle anglais uniquement le plus rapide, « auto » pour la détection sur 99 langues, ou choisissez une langue précise pour la meilleure précision.
- Première exécution : téléchargement du modèle (~75 Mo, une seule fois)Lors de la première transcription, le modèle Whisper-tiny se télécharge depuis le CDN de Hugging Face (~75 Mo pour l'anglais uniquement, ~78 Mo pour le multilingue). Le navigateur le met en cache ; les exécutions suivantes sont instantanées. Pas de téléchargement lors des suivantes.
- TranscrivezWhisper s'exécute sur votre CPU (avec accélération SIMD). Sur un ordinateur portable moderne, attendez-vous à ~2-5× temps réel : un podcast de 10 minutes se transcrit en 2 à 5 minutes. Les appareils plus anciens sont plus lents ; les mobiles, beaucoup plus lents (évitez le mobile pour les fichiers de plus de 5 min).
- Téléchargez le fichier de sous-titresLa sortie est alignée sur les horodatages et prête à l'emploi. Déposez le SRT dans Premiere / DaVinci Resolve, ou téléversez-le sur YouTube / Vimeo comme piste de sous-titres. Pour une incrustation façon TikTok, combinez avec notre outil d'incrustation de sous-titres.