Die professionellen menschlichen Dienstleister kamen hier auf Fehlerquoten zwischen 5,9 und 11,3 Prozent. Die Microsoft-Forscher setzten nun ihr KI-System auf die gleiche Aufgabe an. Hier wurden Fehlerquoten von 5,9 bis 11,1 Prozent erreicht. Die kleine Differenz beim Maximum kann den Angaben zufolge in einer Minute Sprechzeit immerhin rund ein Dutzend Fehler bedeuten.
Fallstricke für die Maschine
Bei einer genaueren Untersuchung der Ergebnisse zeigte sich, dass die Microsoft-KI, die man zuvor mit über 2.000 Stunden Gesprächsaufzeichnungen auf die Analyse menschlicher Sprache trainiert hatte, typischerweise an anderen Stellen Fehler produziert als der Mensch. Das liegt daran, dass das System weniger gut unterscheiden kann, ob bestimmte Laute lediglich den Gesprächsfluss füllen oder die verkürzte Form eines bestimmten Wortes darstellen.Hinzu kommt, dass solche Laute auch dann unterschiedliche Bedeutungen haben können, wenn sie für den Gesprächsinhalt keine Bedeutung haben. Im Deutschen kennt man das klassische "Ähm", mit dem Pausen, in denen der Sprecher im Kopf die nächste Formulierung zusammenstellt, gefüllt werden. Für die Maschine ist dieses nur schwer von einem "Hm-Hm" zu unterscheiden, das dem Gegenüber Zustimmung signalisiert und ihn auffordert, weiterzusprechen. Menschen können solche Laute ohne nachzudenken weitgehend aus dem gehörten Text herausfiltern.
Die Forscher haben nach dem nun gezeigten Erfolg natürlich schon das nächste Ziel vor Augen. Das System soll jetzt besser darin werden, eine vergleichbare Qualität auch dann hinzubekommen, wenn Hintergrundgeräusche die Spracherkennung stören. Darin ist der Mensch noch wesentlich besser, da das Gehirn darauf konditioniert ist, unwichtige Töne automatisch herauszufiltern.