Sous-titres automatiques — Gratuit en ligne

À propos de Sous-titres automatiques

Les sous-titres automatiques d'AntiUpload sont un transcripteur parole-vers-texte intégré au navigateur qui exécute le modèle Whisper (le même modèle open source qui propulse l'API audio d'OpenAI) entièrement sur votre appareil. Déposez un fichier audio ou vidéo et vous obtiendrez un fichier de sous-titres en SRT, VTT, texte brut, JSON ou le format ASS mot à mot façon TikTok. Le modèle s'exécute dans un Web Worker via la bibliothèque @xenova/transformers.js ; aucun audio n'est téléversé sur un quelconque serveur.

Comparez les chiffres : Rev / Otter / Trint facturent entre 0,10 et 0,25 $ par minute de transcription. Un podcast d'1 heure coûte entre 6 et 15 $ à transcrire sur ces services, avec l'audio téléversé sur leurs serveurs et traité dans leur cloud. La même heure se transcrit pour 0 $ ici, avec le fichier qui ne quitte jamais votre navigateur. La première transcription télécharge le modèle Whisper-tiny d'environ 75 Mo depuis Hugging Face ; les exécutions suivantes réutilisent le modèle mis en cache et démarrent donc instantanément.

Le compromis est la vitesse et la précision. Whisper-tiny est rapide (~2-5× temps réel sur un ordinateur portable moderne) mais moins précis que Whisper-large (le modèle qu'utilisent les services cloud). Pour la parole propre (podcasts, cours, interviews), tiny atteint ~95 % des mots. Pour les accents marqués, les fonds bruyants ou le jargon technique, le modèle Base (145 Mo, disponible en option) aide. Le mode traduction force le multilingue et produit de l'anglais depuis n'importe quelle langue source : utile pour le matériel en langue étrangère destiné à des sous-titres pour un public anglophone.

Comment ça marche

Déposez un fichier audio ou vidéoPrend en charge tous les formats courants : MP4, MOV, WebM, MKV, AVI pour la vidéo ; MP3, WAV, M4A, OGG, FLAC, AAC, OPUS pour l'audio. L'outil extrait la piste audio via FFmpeg avant d'exécuter Whisper.
Choisissez le format de sortie et la langueSRT (universel), VTT (vidéo web), TXT (transcription brute), JSON (avec horodatages) ou ASS (sous-titres mot à mot façon TikTok). Réglez la langue sur « en » pour le modèle anglais uniquement le plus rapide, « auto » pour la détection sur 99 langues, ou choisissez une langue précise pour la meilleure précision.
Première exécution : téléchargement du modèle (~75 Mo, une seule fois)Lors de la première transcription, le modèle Whisper-tiny se télécharge depuis le CDN de Hugging Face (~75 Mo pour l'anglais uniquement, ~78 Mo pour le multilingue). Le navigateur le met en cache ; les exécutions suivantes sont instantanées. Pas de téléchargement lors des suivantes.
TranscrivezWhisper s'exécute sur votre CPU (avec accélération SIMD). Sur un ordinateur portable moderne, attendez-vous à ~2-5× temps réel : un podcast de 10 minutes se transcrit en 2 à 5 minutes. Les appareils plus anciens sont plus lents ; les mobiles, beaucoup plus lents (évitez le mobile pour les fichiers de plus de 5 min).
Téléchargez le fichier de sous-titresLa sortie est alignée sur les horodatages et prête à l'emploi. Déposez le SRT dans Premiere / DaVinci Resolve, ou téléversez-le sur YouTube / Vimeo comme piste de sous-titres. Pour une incrustation façon TikTok, combinez avec notre outil d'incrustation de sous-titres.

Quand utiliser Sous-titres automatiques

Sous-titrer un épisode de podcast pour YouTube

Les sous-titres automatiques de YouTube sont notoirement imprécis ; les sous-titres manuels sont prioritaires dans les recherches. Générez un SRT localement, téléversez-le comme piste de sous-titres et obtenez un texte plus propre plus un meilleur SEO sur YouTube.

Piste de sous-titres pour TikTok / Reels sans payer CapCut Pro

Choisissez la sortie ASS (mot à mot), puis incrustez avec notre outil d'incrustation de sous-titres. Égalez l'aspect des sous-titres automatiques de CapCut sans l'abonnement à 7,99 $/mois.

Transcrire des interviews pour le journalisme / la recherche

Envoyer de l'audio d'interviews sensibles à Rev ou Otter soulève des problèmes de confidentialité / consentement. La transcription locale garde l'audio sur votre appareil : aucun tiers ne l'écoute.

Vidéo en langue étrangère → sous-titres anglais pour un client

Réglez la tâche sur « traduire » et la langue d'entrée sur « auto » : Whisper produit des sous-titres en anglais directement depuis n'importe laquelle des 99 langues source. Sautez l'aller-retour par Google Translate.

Transcription de cours / réunions pour l'accessibilité

Générez une transcription TXT pour la recherche, ou un SRT pour la conformité à l'accessibilité vidéo (ADA / EAA). Gratuit et privé : approprié pour du contenu éducatif sensible.

Questions fréquentes

Quelle est la précision de Whisper-tiny pour la transcription ?

Sur la parole anglaise propre (podcasts, cours), Whisper-tiny.en atteint ~95 % de précision par mot, comparable à la plupart des services payants sur de l'audio équivalent. La précision baisse avec les accents marqués, le jargon technique ou le bruit de fond. Le modèle Base optionnel (145 Mo, ~2× plus lent) récupère la majeure partie de cette perte. Whisper-large (cloud uniquement via l'API OpenAI) reste la référence, mais ce n'est pas un téléchargement de 75 Mo dans le navigateur.

Pourquoi la première exécution prend-elle autant de temps ?

La première utilisation télécharge le modèle Whisper (~75 Mo tiny, ~78 Mo multilingue, ~145 Mo base) depuis le CDN de Hugging Face. Le navigateur le met en cache dans IndexedDB. Chaque transcription suivante démarre instantanément, sans nouveau téléchargement. Si vous videz le cache du navigateur, le modèle se télécharge à nouveau à la prochaine utilisation.

Mon audio n'est-il vraiment jamais téléversé ?

Confirmé. Ouvrez les outils de développement → Réseau → reproduisez une transcription. Les seules requêtes réseau sont : le JavaScript de la page (petit), le moteur FFmpeg WASM lors de la première utilisation (~12 Mo), le modèle Whisper lors de la première utilisation (~75 Mo) et les ressources de la page. Aucune requête ne contient votre audio. La transcription s'exécute dans un Web Worker sur votre CPU.

Quelle est la différence entre le mode transcription et le mode traduction ?

Transcription : le texte de sortie est dans la même langue que l'audio source (espagnol en entrée → espagnol en sortie). Traduction : le texte de sortie est en anglais quelle que soit la langue source (espagnol en entrée → anglais en sortie). La traduction force le modèle multilingue et est plus lente / un peu moins précise que la transcription, mais saute l'étape de traduction manuelle.

Peut-il gérer un podcast / cours de 2 heures ?

Oui, mais attendez-vous à 30-60 minutes de temps CPU sur un ordinateur portable moderne. L'audio est traité par fragments pour que l'utilisation de la mémoire reste bornée (Whisper-tiny a besoin d'environ 200 Mo de RAM de travail quelle que soit la durée du fichier). Pour les fichiers de plus de 30 minutes, envisagez de fermer les autres onglets pour libérer du CPU.

Pourquoi la synchronisation du SRT est-elle légèrement décalée par endroits ?

Whisper dérive parfois sur les longs silences (le modèle manque du signal de durée pour s'ancrer). Nous pré-filtrons les régions silencieuses avec une détection d'activité vocale pour atténuer cela : l'audio typique avec beaucoup de silences (podcasts avec musique d'intro) gagne 30 à 50 % en vitesse et précision grâce à cette étape. Pour une précision d'horodatage de qualité télédiffusion, vous voudriez encore un service payant comme Descript avec édition manuelle.

Comment cela se compare-t-il à l'API payante OpenAI Whisper ?

L'API payante utilise Whisper-large-v3 (significativement plus précis sur l'audio bruyant / accentué) et s'exécute sur les serveurs d'OpenAI. Elle coûte 0,006 $/min (0,36 $/heure). Notre outil exécute le plus petit modèle Whisper-tiny sur votre appareil pour 0 $. Pour la parole propre, l'écart de précision est faible (~3-5 points de pourcentage de taux d'erreur par mot). Pour la parole bruyante / accentuée, l'API est nettement meilleure. Compromis : confidentialité + coût + limite de taille (navigateur) contre précision (cloud).

Outils similaires

Incruster sous-titresGravez des sous-titres dans la vidéo Extraire l'audioExtrayez la piste audio d'une vidéo Couper les silencesSupprimez automatiquement les silences MP4 vers MP3Extrayez l'audio MP3 d'une vidéo MP4