Automatische Untertitel — Kostenlos online

Über Automatische Untertitel

Auto-Untertitel von AntiUpload ist ein In-Browser-Sprache-zu-Text-Transkriber, der das Whisper-Modell (dasselbe Open-Source-Modell, das die Audio-API von OpenAI antreibt) vollständig auf Ihrem Gerät ausführt. Legen Sie eine Audio- oder Videodatei ab und Sie erhalten eine Untertiteldatei in SRT, VTT, Klartext, JSON oder im TikTok-Stil als Wort-für-Wort-ASS-Format zurück. Das Modell läuft in einem Web Worker über die @xenova/transformers.js-Bibliothek; kein Audio wird auf einen Server hochgeladen.

Vergleichen Sie die Mathematik: Rev / Otter / Trint verlangen 0,10 bis 0,25 $ pro Minute Transkription. Ein 1-Stunden-Podcast kostet 6 bis 15 $, um auf diesen Diensten transkribiert zu werden, wobei das Audio auf ihre Server hochgeladen und in ihrer Cloud verarbeitet wird. Dieselbe Stunde wird hier für 0 $ transkribiert, und die Datei verlässt nie Ihren Browser. Die erste Transkription lädt das ~75 MB große Whisper-tiny-Modell von Hugging Face herunter; nachfolgende Läufe verwenden das gecachte Modell wieder und starten daher sofort.

Der Kompromiss sind Geschwindigkeit und Genauigkeit. Whisper-tiny ist schnell (~2 bis 5× Echtzeit auf einem modernen Laptop), aber weniger genau als Whisper-large (das Modell, das die Cloud-Dienste verwenden). Für saubere Sprache (Podcasts, Vorlesungen, Interviews) erkennt tiny ~95 % der Wörter richtig. Bei starken Akzenten, lauten Hintergründen oder Fachjargon hilft das Base-Modell (145 MB, als Option verfügbar). Der Übersetzungsmodus erzwingt mehrsprachig und gibt aus jeder Quellsprache Englisch aus – nützlich für fremdsprachiges Ausgangsmaterial, das für englischsprachige Untertitel bestimmt ist.

So funktioniert es

Audio- oder Videodatei ablegenAkzeptiert jedes gängige Format: MP4, MOV, WebM, MKV, AVI für Video; MP3, WAV, M4A, OGG, FLAC, AAC, OPUS für Audio. Das Tool extrahiert die Audiospur über FFmpeg, bevor Whisper ausgeführt wird.
Ausgabeformat und Sprache wählenSRT (universell), VTT (Web-Video), TXT (einfaches Transkript), JSON (mit Zeitstempeln) oder ASS (Untertitel im TikTok-Stil Wort für Wort). Stellen Sie die Sprache auf „en“ für das schnellste Nur-Englisch-Modell, „auto“ für die Erkennung von 99 Sprachen oder wählen Sie eine bestimmte Sprache für beste Genauigkeit.
Erster Lauf: Modell herunterladen (~75 MB, einmalig)Bei der ersten Transkription wird das Whisper-tiny-Modell vom CDN von Hugging Face heruntergeladen (~75 MB für Nur-Englisch, ~78 MB für mehrsprachig). Der Browser cacht es; nachfolgende Läufe sind sofort verfügbar. Kein Download bei Folgeläufen.
TranskribierenWhisper läuft auf Ihrer CPU (mit SIMD-Beschleunigung). Auf einem modernen Laptop erwarten Sie ~2 bis 5× Echtzeit – ein 10-minütiger Podcast wird in 2 bis 5 Minuten transkribiert. Ältere Geräte sind langsamer; mobile Geräte deutlich langsamer (vermeiden Sie mobil für Dateien länger als 5 Minuten).
Untertiteldatei herunterladenDie Ausgabe ist zeitstempelausgerichtet und einsatzbereit. Legen Sie das SRT in Premiere / DaVinci Resolve oder laden Sie es als Untertitelspur in YouTube / Vimeo hoch. Für das Einbrennen im TikTok-Stil kombinieren Sie es mit unserem Untertitel-einbrennen-Tool.

Wann Automatische Untertitel verwenden

Eine Podcast-Folge für YouTube mit Untertiteln versehen

Die automatischen Untertitel von YouTube sind notorisch ungenau; manuelle Untertitel werden in der Suche bevorzugt. Generieren Sie ein SRT lokal, laden Sie es als Untertitelspur hoch, erhalten Sie einen saubereren Text plus besseres YouTube-SEO.

TikTok-/Reels-Untertitelspur ohne CapCut Pro zu bezahlen

Wählen Sie die ASS-Ausgabe (Wort für Wort) und brennen Sie sie dann über unser Untertitel-einbrennen-Tool ein. Entspricht dem Look der automatischen CapCut-Untertitel ohne das 7,99 $/Monat-Abonnement.

Interviews für Journalismus / Forschung transkribieren

Das Senden sensibler Interview-Audios an Rev oder Otter wirft Datenschutz-/Einwilligungsfragen auf. Lokale Transkription hält das Audio auf Ihrem Gerät – kein Dritter hört es.

Fremdsprachiges Video → englische Untertitel für einen Kunden

Aufgabe auf „übersetzen“, Eingabesprache auf „auto“ – Whisper erzeugt englische Untertitel direkt aus jeder der 99 Quellsprachen. Sparen Sie sich den Google-Translate-Umweg.

Vorlesungs-/Besprechungstranskription für Barrierefreiheit

Generieren Sie ein TXT-Transkript für die Durchsuchbarkeit oder SRT für die Barrierefreiheits-Konformität von Videos (ADA / EAA). Kostenlos und privat – angemessen für sensible Bildungsinhalte.

Häufige Fragen

Wie genau ist Whisper-tiny für die Transkription?

Bei sauberer englischer Sprache (Podcasts, Vorlesungen) erreicht Whisper-tiny.en ~95 % Wortgenauigkeit – vergleichbar mit den meisten kostenpflichtigen Diensten bei äquivalentem Audio. Die Genauigkeit sinkt bei starken Akzenten, Fachjargon oder Hintergrundgeräuschen. Das optionale Base-Modell (145 MB, ~2× langsamer) holt den größten Teil dieses Verlusts auf. Whisper-large (nur Cloud über OpenAI-API) ist immer noch der Goldstandard, ist aber kein 75-MB-Browser-Download.

Warum dauert der erste Lauf so lange?

Bei der ersten Verwendung wird das Whisper-Modell (~75 MB tiny, ~78 MB mehrsprachig, ~145 MB base) vom CDN von Hugging Face heruntergeladen. Der Browser cacht es in IndexedDB. Jede nachfolgende Transkription startet sofort – kein erneutes Herunterladen. Wenn Sie Ihren Browser-Cache leeren, wird das Modell beim nächsten Gebrauch erneut heruntergeladen.

Wird mein Audio wirklich niemals hochgeladen?

Bestätigt. Öffnen Sie DevTools → Netzwerk → reproduzieren Sie eine Transkription. Die einzigen Netzwerkanfragen sind: das Seiten-JavaScript (klein), die FFmpeg-WASM-Engine bei der ersten Verwendung (~12 MB), das Whisper-Modell bei der ersten Verwendung (~75 MB) und die Seitenressourcen. Keine Anfrage enthält Ihr Audio. Die Transkription läuft in einem Web Worker auf Ihrer CPU.

Was ist der Unterschied zwischen Transkriptions- und Übersetzungsmodus?

Transkribieren: Der Ausgabetext ist in derselben Sprache wie das Quellaudio (Spanisch rein → Spanisch raus). Übersetzen: Der Ausgabetext ist Englisch, unabhängig von der Quellsprache (Spanisch rein → Englisch raus). Übersetzen erzwingt das mehrsprachige Modell und ist langsamer / etwas weniger genau als Transkribieren, überspringt aber den manuellen Übersetzungsschritt.

Kann es einen 2-stündigen Podcast / Vorlesung verarbeiten?

Ja, aber erwarten Sie 30 bis 60 Minuten CPU-Zeit auf einem modernen Laptop. Das Audio wird in Chunks verarbeitet, sodass der Speicherverbrauch begrenzt bleibt (Whisper-tiny benötigt unabhängig von der Dateilänge etwa 200 MB Arbeitsspeicher). Erwägen Sie bei Dateien länger als 30 Minuten, andere Tabs zu schließen, um CPU freizugeben.

Warum ist das SRT-Timing stellenweise leicht abweichend?

Whisper driftet gelegentlich bei langen Stillen ab (dem Modell fehlt das Dauersignal, um sich zu verankern). Wir filtern stille Regionen vorab mit Voice Activity Detection, um dies abzumildern – typisches stille-reiches Audio (Podcasts mit Intro-Musik) sieht durch diesen Schritt eine 30- bis 50-prozentige Geschwindigkeits- und Genauigkeitsverbesserung. Für Sendequalitäts-Zeitstempelgenauigkeit würden Sie immer noch einen kostenpflichtigen Dienst wie Descript mit manueller Bearbeitung wollen.

Wie vergleicht sich das mit der kostenpflichtigen OpenAI-Whisper-API?

Die kostenpflichtige API verwendet Whisper-large-v3 (deutlich genauer bei lautem / akzentuiertem Audio) und läuft auf den Servern von OpenAI. Sie kostet 0,006 $/Min. (0,36 $/Std.). Unser Tool führt das kleinere Whisper-tiny-Modell auf Ihrem Gerät für 0 $ aus. Für saubere Sprache ist der Genauigkeitsunterschied klein (~3 bis 5 Prozentpunkte Wortfehlerrate). Für laute / akzentuierte Sprache ist die API spürbar besser. Kompromiss: Datenschutz + Kosten + Größenbeschränkung (Browser) vs. Genauigkeit (Cloud).

Über Automatische Untertitel

So funktioniert es

Wann Automatische Untertitel verwenden

Häufige Fragen

Ähnliche Tools