Audio-Dateien automatisch transkribieren

In diesem Blogpost habe ich meine Erkenntnis beschrieben, dass es für “gebaute” Podcast-Beiträge mehr als hilfreich ist, den gesprochenen Text in den Audio-Dateien schriftlich vor sich zu haben, um die entscheidenden Stellen herauszufinden, die Anmoderation genau darauf auszurichten, und zu lange Passagen für den Moderator zusammenzufassen.

Nun ist das Transkibieren immer eine zeitraubende Arbeit, die man gern vermeidet. Deshalb habe ich mal 3 Versuche gemacht, eine Audio-Datei mit einem Interview automatisch online transkribieren zu lassen. Anika Bors (podcastwonder) möge mir verzeihen, dass ich das Interview mit ihr hier als Beispiel nehme. Hier die Ergebnisse in Kurzform:

Bluemix

Kostenlos, ohne Anmeldung, die Audio-Datei einfach hochladen, die Sprache einstellen, und dann zusehen, wie IBM Watson arbeitet: https://speech-to-text-demo.ng.bluemix.net/. Man hört das Interview und sieht, wie sich der Text am Bildschirm realtime entwickelt. Das ist sehr beeindruckend. Allerdings entdeckt man auch gleich, was Watson doch nicht so richtig verstanden hat. Korrigieren kann man es hier nicht, erst nach dem Kopieren des Textes in ein Textprogramm. Dann muss man es allerdings parallel noch einmal anhören, was den Umgang mit zwei Bildschirm-Fenstern erfordert.

Hier der unbearbeitete Anfang des Interview-Textes von Bluemix:

Speechmatics

Speechmatics ist eine englische Firma, die ihren Transkribierungs-Online-Service gegen Gebühr anbietet: 0,06 £ je Minute, wenn man vorher 10 £ eingezahlt hat. Das scheint im Vergleich zum Selbst-Abtippen günstig. Zum Ausprobieren sind 60 Minuten kostenlos. Eine Anmeldung ist nötig: https://www.speechmatics.com/.

Auch hier: Sprache einstellen, Datei hochladen und abwarten. Wenn der Text fertig vorliegt, bekommt man eine Email mit dem gesamten Text. Man kann das aber auch gleich auf der Webseite lessen und gleich abhören. Ein Mausklick auf ein Wort lässt den Ton gleich dort wieder anfangen.

Wie schön wäre es, wenn man den Text hier gleich korrigieren könnte, das geht aber leider nicht. Fehler entstehen auch hier, Z.B. braucht es eine Weile, bis der neue Speaker erkannt wird. Deshalb stehen die ersten Worte oft noch als letzte beim Vor-Redner.

Aber hier werden die Sprecher erkannt, und unterschiedlich bezeichnet. Meine Teile sind als M1 und die von Anika als F1 gekennzeichnet. Das Programm kann offenbar Männerstimmen von Frauenstimmen unterscheiden. In einem Textprogramm läßt sich jetzt “M1” leicht mit “Karlheinz” durchgängig ersetzen.

Nacharbeit ist aber auch hier notwendig. Insbesondere, wenn es um Fremdwörter geht, dann sucht das Programm nach ähnlich klingenden deutschen Worten. In einem anderen Interview stellte sich jemand vor “Ich bin bei MotorTalk”. Transcribiert wurde “Ich bin beim Muttertag”. Verständlich, aber es macht auch deutlich, dass Nacharbeit immer nötig ist.

Hier der gleiche Interview-Anfang wie oben, nur von Speechmatics transcribiert (unbearbeitet):

 

Trint

Trint ist ebenfalls eine englische Firma, die auch ihren Online-Transkribierungs-Service gegen Gebühr anbietet, allerdings zu recht hohen Preisen. 16,20 € je Stunde werden hier verlangt, das sind 0,27 € je Minute. Die ersten 30 Minuten sind zum Ausprobieren frei.

Die gleiche Audio-Datei bei Trint hochgeladen. Wieder: Sprache einstellen und abwarten. Auch hier kommt eine Mail mit dem transkribierten Text. Und auch hier kann man sich gleich am Bildschirm den Text im Originalton “vorlesen” lassen. Beim Abspielen wird der gerade gesprochene Text schwarz. Auch die Text-Bearbeitung läßt sich direkt erledigen.

Hier werden die Sprecher zwar auch unterschieden, aber nicht benannt. Das muss man bei jedem Abschnitt immer wieder selber tun. Auch hier dauert die Erkennung des nächsten Sprechers zu lange, so dass dem Vorredner noch zu viel Text zugeordnet wird. Leider wirken sich Text-Löschungen nicht auf das Audio-File aus. Für den erzeugten Text gibt es eine Export-Funktion in 6 verschiedene Formate, von .docx bis .xml. Wenn man Textteile markiert hat, kann man auch nur die als Text exportieren.

Mein Fazit:

Speechmatics ist derzeit mein Favorit. Da ist weniger Nachbearbeitung nötig als bei Bluewin. Und der erheblich teurere Dienst Trint macht leider ähnlich viele Transcribierungs-Fehler.

Wünschenswert wäre eine Lösung, bei der die Text- und Audio-Datei so gekoppelt bleiben, dass auch ausgeschnittene Teile mit Audio und dazugehörigem Text verbleiben. Das geht leider bei allen drei Lösungen noch nicht. Aber die Entwicklung beginnt ja erst so richtig.

Wer mehr dazu lessen will: Der Radio-Macher Thomas Reintjes hat sich aus seiner Sicht ebenfalls mit dem Transkribieren hier beschäftigt.

Ergänzung am 21.12.2018:

Bei Audiotranscription.de gibt es Untersuchungen zum Aufwand fürs Transkribieren von Interviews: Studierende (Amateur-Schreibende) brauchen etwa 6,3 mal so lange zum Abschreiben, wie das Interview dauerte. Die Korrekturzeit automatisch übersetzter Interviews liegt immer noch bei durchschnittlich 5,1-facher Interview-Dauer bei dieser Gruppe. Professionelle Schreibkräfte brauchen zum Transkribieren nur die 4,2-fache Interview-Zeit, und fürs Korrigieren der automatischen Übersetzung nur unwesentlich weniger Zeit. Die automatische Transkription scheint also nur für ungeübte Schreibende Sinn zu machen.

Ergänzung am 09.04.2022: Transkribieren mit MS Word

Inzwischen kann Microsoft Word ebenfalls Audio-Dateien transkribieren. Allerdings nur in der Web-Version. Die steht aber jedem mit einem M365-Account ohne zusätzliche Kosten zur Verfügung. Meine Erfarhungen sind aber die gleichen, wie oben beschrieben: Die Nacharbeit ist etwa genauso aufwändig, wie das Mitschreiben. Das liegt u.a. an den vielen – meist englischen – Fremdwörtern, die die Transkribtions-KI in der eingestellten Sprache nicht vermutet. Leider kann man auch nicht einfach über Ungenauigkeiten hinweg gehen, da oft eine ganze Reihe von wirklich Sinn-entstellenden Wörtern entstehen.

7 Gedanken zu „Audio-Dateien automatisch transkribieren“

  1. Sehr guter Artikel und vergleich, weiter so! Der Vollständigkeit halber und weil er noch nicht hier genannt wurde ist der Transkriptomat unter https://www.transkriptomat.de Funktioniert wie die anderen Dienste auch. Einfach Audio/Video Datei hochladen und das Transkript / Untertitel / Übersetzung per E-Mail erhalten.

  2. Hallo Leute,
    danke für den Artikel. Ich benutze diese Dienste auch immer. Ich kann mehr Audext audext.com/de/ hinzufügen. Es wandelt Sprache online in Text um. Das ist meine Lieblingsseite.
    Gruße
    Ashley

  3. Hallo Karlheinz,

    danke für den spannenden Artikel. Ich schreibe gerade meine Bachelorarbeit zum Thema und da habe ich deine Liste als Startpunkt für die zu testenden Systeme genommen. Das hat mir also sehr weitergeholfen!

    Bei meiner Recherche hatte ich noch drei weitere bisher unerwähnte Anbieter gefunden:

    Voicedocs: https://voicedocs.com/ – Bietet als Sprachen Deutsch, Englisch und Türkisch an.
    abtipper: https://www.abtipper.de/leistungen-preise/ – Bietet als Sprache Deutsch an
    Google: https://cloud.google.com/speech-to-text?hl=de – Lässt sich mittlerweile direkt über eine Web-Schnittstelle ansteuern

    Wenn du Interesse hast, dann schicke ich dir gerne meine Arbeit zu, wenn sie fertig ist.

    LG, Jasper

  4. Danke für Deinen Artikel spannend
    Ich habe heute selbst mal probiert.
    Eine wenigstens halbwegs vernünftige Version , wo das Audio auch gekoppelt ist mit dem Transkript und man etwas ändern kann – leider sind doch einige Fehler – habe ich hier gefunden.

    Case 01
    Das dürfte eine Landingpage sein
    https://www.bachelorprint.at/wissenschaftliches-arbeiten/transkribieren/transkribieren-programm/

    das die dahinter liegende Software
    30 Minuten sind mal frei
    https://www.amberscript.com/de

    Case 02
    Die sind zwar etwas teuer aber die kenne ich seit Jahren da super Tests zu Audiogeräten und Transkriptionen seit Jahren
    https://www.audiotranskription.de/

    lg Fliegern

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert