Über Stille entfernen
Auto-Cut Silence von AntiUpload findet die stillen Abschnitte in einer Podcast- oder Videoaufnahme und schneidet sie heraus, sodass die Sprache (oder jeder andere nicht stille Inhalt) intakt bleibt. Es ist die Stille-Entfernungsfunktion von Descript / Adobe Podcast Enhance / Riverside, kostenlos, lokal in Ihrem Browser über den „silencedetect“-Filter von FFmpeg ausgeführt. Der Zwei-Pass-Workflow: Pass 1 scannt das Audio nach Abschnitten, die leiser als Ihr Schwellenwert (-30 dB Standard) sind und länger als Ihr Minimum (0,5 s Standard) andauern, und gibt silence_start- / silence_end-Zeitstempelpaare aus. Pass 2 kehrt diese in Sprachbereiche um (mit einem konfigurierbaren Padding, damit Wörter an den Schnittpunkten nicht abgeschnitten werden), erstellt einen filter_complex-Graphen, der auf jeden Sprachbereich zuschneidet, und fügt sie wieder zusammen.
Die Wirtschaftlichkeit zählt: Descript verlangt 24 $/Monat für die Bearbeitungssuite, die diese Funktion enthält; Adobe Podcast (der nächstgelegene kostenlose Wettbewerber) beschränkt die kostenlose Stufe auf 1 Stunde/Monat mit intermittierenden Qualitätsproblemen. Unser Tool läuft lokal, hat keine Zeitbeschränkung und erzeugt vorhersehbare Ausgaben (Sie kontrollieren Schwellenwert und Padding, nicht ein undurchsichtiges ML-Modell). Der Kompromiss: Wir verwenden einen einfachen energiebasierten Stille-Detektor (FFmpeg silencedetect), nicht den sprachbewussten Detektor, den Descript verwendet. Wenn Sie Hintergrundmusik haben, die stellenweise unter den Schwellenwert fällt, schneidet unser Tool sie heraus; Descripts Modell weiß: „Es spielt immer noch Musik darunter, nicht schneiden.“ Für reinen Sprachinhalt (Podcasts ohne Hintergrundmusik, Sprachnachrichten, Besprechungsaufnahmen) entspricht der einfache Detektor dem Verhalten des intelligenten Detektors zu null Kosten.
Der Schwellenwert (-30 dB Standard) und die minimale Stille-Dauer (0,5 s Standard) sind die beiden wichtigsten Regler. Niedrigerer Schwellenwert (negativer, z. B. -40 dB) schneidet nur die wirklich stillen Teile – sicherer, konservativ. Höherer (weniger negativ, z. B. -20 dB) zählt leiseres Umgebungsgeräusch als „still“ – aggressiver Schnitt. Das Padding (0,15 s Standard) ist der Sprachpuffer, der auf jeder Seite jedes Schnitts beibehalten wird, damit das erste und letzte Wort jedes Segments nicht abgeschnitten werden. Funktioniert sowohl mit Audio- als auch mit Videodateien – bei Video bleibt das Bild synchron mit den Audioschnitten, weil wir beide Streams gleichzeitig zuschneiden und das Ergebnis neu codieren.
So funktioniert es
- Audio- oder Videodatei ablegenAkzeptiert alle gängigen Video-Container (MP4 / MOV / WebM / MKV / AVI) und alle gängigen Audioformate (MP3 / WAV / M4A / OGG / FLAC / AAC / OPUS). Video bleibt synchron mit den Audioschnitten.
- Stille-Schwellenwert festlegen (dB)-30 dB Standard funktioniert für typische Podcast-/Zoom-Stimmen. -40 dB für sehr leise Aufnahmen (schlafendes Kind in der Nähe, Umgebungsrauschen, das respektiert werden muss). -25 dB, wenn Ihr Audio laut ist und Sie aggressive Schnitte wünschen.
- Minimale Stille festlegen (Sekunden)0,5 s Standard bewahrt natürliche Sprechpausen („äh“, Nachdenkzeit) und schneidet nur längere Totzeit. Erhöhen Sie auf 1,0 s für konservativere Schnitte. Verringern Sie auf 0,3 s für aggressives Tempo.
- Padding festlegen (Sekunden)0,15 s Standard bewahrt einen kleinen Sprachpuffer auf jeder Seite jedes Schnitts, damit Wörter nicht abgeschnitten werden. Erhöhen Sie auf 0,25 s, wenn Sie Wortfragmente an den Schnittpunkten hören. Verringern Sie auf 0,05 s für engeres Tempo, wenn Ihre Sprache sauber ist.
- Auf Stille entfernen klickenPass 1 scannt das Audio (~10 % der Gesamtzeit). Pass 2 schneidet die Sprachsegmente zu und fügt sie zusammen (~90 %). Die Ausgabe bewahrt das Quellformat für Audio-Eingaben; Video-Eingaben werden immer als MP4 ausgegeben.