Audio-Dateien automatisch transkribieren

In diesem Blogpost habe ich meine Erkenntnis beschrieben, dass es für “gebaute” Podcast-Beiträge mehr als hilfreich ist, den gesprochenen Text in den Audio-Dateien schriftlich vor sich zu haben, um die entscheidenden Stellen herauszufinden, die Anmoderation genau darauf auszurichten, und zu lange Passagen für den Moderator zusammenzufassen.

Nun ist das Transkibieren immer eine zeitraubende Arbeit, die man gern vermeidet. Deshalb habe ich mal 3 Versuche gemacht, eine Audio-Datei mit einem Interview automatisch online transkribieren zu lassen. Anika Bors (podcastwonder) möge mir verzeihen, dass ich das Interview mit ihr hier als Beispiel nehme. Hier die Ergebnisse in Kurzform:

Bluemix

Kostenlos, ohne Anmeldung, die Audio-Datei einfach hochladen, die Sprache einstellen, und dann zusehen, wie IBM Watson arbeitet: https://speech-to-text-demo.ng.bluemix.net/. Man hört das Interview und sieht, wie sich der Text am Bildschirm realtime entwickelt. Das ist sehr beeindruckend. Allerdings entdeckt man auch gleich, was Watson doch nicht so richtig verstanden hat. Korrigieren kann man es hier nicht, erst nach dem Kopieren des Textes in ein Textprogramm. Dann muss man es allerdings parallel noch einmal anhören, was den Umgang mit zwei Bildschirm-Fenstern erfordert.

Hier der unbearbeitete Anfang des Interview-Textes von Bluemix:

Speechmatics

Speechmatics ist eine englische Firma, die ihren Transkribierungs-Online-Service gegen Gebühr anbietet: 0,06 £ je Minute, wenn man vorher 10 £ eingezahlt hat. Das scheint im Vergleich zum Selbst-Abtippen günstig. Zum Ausprobieren sind 60 Minuten kostenlos. Eine Anmeldung ist nötig: https://www.speechmatics.com/.

Auch hier: Sprache einstellen, Datei hochladen und abwarten. Wenn der Text fertig vorliegt, bekommt man eine Email mit dem gesamten Text. Man kann das aber auch gleich auf der Webseite lessen und gleich abhören. Ein Mausklick auf ein Wort lässt den Ton gleich dort wieder anfangen.

Wie schön wäre es, wenn man den Text hier gleich korrigieren könnte, das geht aber leider nicht. Fehler entstehen auch hier, Z.B. braucht es eine Weile, bis der neue Speaker erkannt wird. Deshalb stehen die ersten Worte oft noch als letzte beim Vor-Redner.

Aber hier werden die Sprecher erkannt, und unterschiedlich bezeichnet. Meine Teile sind als M1 und die von Anika als F1 gekennzeichnet. Das Programm kann offenbar Männerstimmen von Frauenstimmen unterscheiden. In einem Textprogramm läßt sich jetzt “M1” leicht mit “Karlheinz” durchgängig ersetzen.

Nacharbeit ist aber auch hier notwendig. Insbesondere, wenn es um Fremdwörter geht, dann sucht das Programm nach ähnlich klingenden deutschen Worten. In einem anderen Interview stellte sich jemand vor “Ich bin bei MotorTalk”. Transcribiert wurde “Ich bin beim Muttertag”. Verständlich, aber es macht auch deutlich, dass Nacharbeit immer nötig ist.

Hier der gleiche Interview-Anfang wie oben, nur von Speechmatics transcribiert (unbearbeitet):

Trint

Trint ist ebenfalls eine englische Firma, die auch ihren Online-Transkribierungs-Service gegen Gebühr anbietet, allerdings zu recht hohen Preisen. 16,20 € je Stunde werden hier verlangt, das sind 0,27 € je Minute. Die ersten 30 Minuten sind zum Ausprobieren frei.

Die gleiche Audio-Datei bei Trint hochgeladen. Wieder: Sprache einstellen und abwarten. Auch hier kommt eine Mail mit dem transkribierten Text. Und auch hier kann man sich gleich am Bildschirm den Text im Originalton “vorlesen” lassen. Beim Abspielen wird der gerade gesprochene Text schwarz. Auch die Text-Bearbeitung läßt sich direkt erledigen.

Hier werden die Sprecher zwar auch unterschieden, aber nicht benannt. Das muss man bei jedem Abschnitt immer wieder selber tun. Auch hier dauert die Erkennung des nächsten Sprechers zu lange, so dass dem Vorredner noch zu viel Text zugeordnet wird. Leider wirken sich Text-Löschungen nicht auf das Audio-File aus. Für den erzeugten Text gibt es eine Export-Funktion in 6 verschiedene Formate, von .docx bis .xml. Wenn man Textteile markiert hat, kann man auch nur die als Text exportieren.

 

Mein Fazit:

Speechmatics ist derzeit mein Favorit. Da ist weniger Nachbearbeitung nötig als bei Bluewin. Und der erheblich teurere Dienst Trint macht leider ähnlich viele Transcribierungs-Fehler.

Wünschenswert wäre eine Lösung, bei der die Text- und Audio-Datei so gekoppelt bleiben, dass auch ausgeschnittene Teile mit Audio und dazugehörigem Text verbleiben. Das geht leider bei allen drei Lösungen noch nicht. Aber die Entwicklung beginnt ja erst so richtig.

Wer mehr dazu lessen will: Der Radio-Macher Thomas Reintjes hat sich aus seiner Sicht ebenfalls mit dem Transkribieren hier beschäftigt.

 

Ergänzung am 21.12.2018:

Bei Audiotranscription.de gibt es Untersuchungen zum Aufwand fürs Transkribieren von Interviews: Studierende (Amateur-Schreibende) brauchen etwa 6,3 mal so lange zum Abschreiben, wie das Interview dauerte. Die Korrekturzeit automatisch übersetzter Interviews liegt immer noch bei durchschnittlich 5,1-facher Interview-Dauer bei dieser Gruppe. Professionelle Schreibkräfte brauchen zum Transkribieren nur die 4,2-fache Interview-Zeit, und fürs Korrigieren der automatischen Übersetzung nur unwesentlich weniger Zeit. Die automatische Transkription scheint also nur für ungeübte Schreibende Sinn zu machen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.