Fast so gut wie Menschen
Laut den für das Projekt verantwortlichen Forschern wurde das System mit einem 24-stündigen Datensatz trainiert, das von einer professionellen Sprecherin in amerikanischem Englisch eingesprochen wurde. Durch den Einsatz so genannter Mel-Spektogramme als Zwischenstufe erreiche Tacotron 2 eine besonders natürlich klingende Sprachausgabe, da diese eine höhere Abbildung der Tonhöhen ermöglichten.Um die Qualität des Systems zu bewerten, wurden 100 zufällig ausgewählte Sequenzen als Audiodateien erstellt, welche anschließend von Menschen auf einer Skala von 1 bis 5 bewertet wurden. Der daraus ermittelte "Mean Opinion Score" (MOS) lag für das KI-System bei einem extrem guten Wert von 4,525. Echte menschliche Aufnahmen liegen mit 4,58 nur unwesentlich darüber.
Demo-Dateien verblüffen
Wer sich von Googles neuer Sprachausgabe selbst überzeugen will, kann dies auf einer Demoseite (siehe Video oben) tun. Dort haben die Forscher eine Reihe von Tondateien für Textschnipsel hochgeladen, die dem System vorher nicht bekannt waren. Die hohe Qualität der Sprachausgabe ist wirklich verblüffend und von der normalen menschlichen Aussprache praktisch nicht mehr zu unterscheiden. Tacotron 2 kommt sogar mit Tippfehlern zurecht und kann die einzelnen Wörter so in den Gesamtkontext einordnen, dass die Betonung dazu passt.Auch wenn es sich bei dem KI-System nur um Grundlagenforschung handelt. Angesichts der nahezu perfekten Resultate dürfte es nicht allzu lange dauern, bis Google die Technik in den Google Assistant und andere Produkte integriert. Auch andere IT-Firmen wie Googles chinesisches Pendant Baidu arbeiten bereits an ähnlichen Systemen. Bereits im März diesen Jahres hatten die Baidu-Ingenieure bei ihrem Sprachausgabe-System einen Durchbruch vermeldet.