Über Automatische Untertitel
Auto-Untertitel von AntiUpload ist ein In-Browser-Sprache-zu-Text-Transkriber, der das Whisper-Modell (dasselbe Open-Source-Modell, das die Audio-API von OpenAI antreibt) vollständig auf Ihrem Gerät ausführt. Legen Sie eine Audio- oder Videodatei ab und Sie erhalten eine Untertiteldatei in SRT, VTT, Klartext, JSON oder im TikTok-Stil als Wort-für-Wort-ASS-Format zurück. Das Modell läuft in einem Web Worker über die @xenova/transformers.js-Bibliothek; kein Audio wird auf einen Server hochgeladen.
Vergleichen Sie die Mathematik: Rev / Otter / Trint verlangen 0,10 bis 0,25 $ pro Minute Transkription. Ein 1-Stunden-Podcast kostet 6 bis 15 $, um auf diesen Diensten transkribiert zu werden, wobei das Audio auf ihre Server hochgeladen und in ihrer Cloud verarbeitet wird. Dieselbe Stunde wird hier für 0 $ transkribiert, und die Datei verlässt nie Ihren Browser. Die erste Transkription lädt das ~75 MB große Whisper-tiny-Modell von Hugging Face herunter; nachfolgende Läufe verwenden das gecachte Modell wieder und starten daher sofort.
Der Kompromiss sind Geschwindigkeit und Genauigkeit. Whisper-tiny ist schnell (~2 bis 5× Echtzeit auf einem modernen Laptop), aber weniger genau als Whisper-large (das Modell, das die Cloud-Dienste verwenden). Für saubere Sprache (Podcasts, Vorlesungen, Interviews) erkennt tiny ~95 % der Wörter richtig. Bei starken Akzenten, lauten Hintergründen oder Fachjargon hilft das Base-Modell (145 MB, als Option verfügbar). Der Übersetzungsmodus erzwingt mehrsprachig und gibt aus jeder Quellsprache Englisch aus – nützlich für fremdsprachiges Ausgangsmaterial, das für englischsprachige Untertitel bestimmt ist.
So funktioniert es
- Audio- oder Videodatei ablegenAkzeptiert jedes gängige Format: MP4, MOV, WebM, MKV, AVI für Video; MP3, WAV, M4A, OGG, FLAC, AAC, OPUS für Audio. Das Tool extrahiert die Audiospur über FFmpeg, bevor Whisper ausgeführt wird.
- Ausgabeformat und Sprache wählenSRT (universell), VTT (Web-Video), TXT (einfaches Transkript), JSON (mit Zeitstempeln) oder ASS (Untertitel im TikTok-Stil Wort für Wort). Stellen Sie die Sprache auf „en“ für das schnellste Nur-Englisch-Modell, „auto“ für die Erkennung von 99 Sprachen oder wählen Sie eine bestimmte Sprache für beste Genauigkeit.
- Erster Lauf: Modell herunterladen (~75 MB, einmalig)Bei der ersten Transkription wird das Whisper-tiny-Modell vom CDN von Hugging Face heruntergeladen (~75 MB für Nur-Englisch, ~78 MB für mehrsprachig). Der Browser cacht es; nachfolgende Läufe sind sofort verfügbar. Kein Download bei Folgeläufen.
- TranskribierenWhisper läuft auf Ihrer CPU (mit SIMD-Beschleunigung). Auf einem modernen Laptop erwarten Sie ~2 bis 5× Echtzeit – ein 10-minütiger Podcast wird in 2 bis 5 Minuten transkribiert. Ältere Geräte sind langsamer; mobile Geräte deutlich langsamer (vermeiden Sie mobil für Dateien länger als 5 Minuten).
- Untertiteldatei herunterladenDie Ausgabe ist zeitstempelausgerichtet und einsatzbereit. Legen Sie das SRT in Premiere / DaVinci Resolve oder laden Sie es als Untertitelspur in YouTube / Vimeo hoch. Für das Einbrennen im TikTok-Stil kombinieren Sie es mit unserem Untertitel-einbrennen-Tool.