X

Ihr werdet Ohren machen: Google-KI spricht wie echte Menschen

Mit dem immer noch hörbaren Unterschied zwischen Computerstimmen und echten Menschen dürfte es bald vorbei sein. Forscher von Google und der University of California haben mit Hilfe neuronaler Netze ein Sys­tem entwickelt, das aus Text natürlich klingende Sprache mit sinn­vol­len Betonungen erzeugt.
Pixabay
30.12.2017  15:36 Uhr
Googles Tacotron 2-Projekt ist ein mit dem neuronalen Netzwerk Wavenet arbeitendes KI-System, welches Satzbau und Wortposition analysiert, um die korrekte Betonung von Silben zu errechnen. Dazu wird für den Text ein Tonhöhendiagramm erstellt, das dann bei der Sprach­aus­gabe die Intonation der Sätze automatisch anpasst. Die Wavenet-Algorithmen kom­men bereits im Google Assistant für die Sprachausgabe zum Einsatz. Mit Tacotron 2 klingt der gesprochene Text lediglich natürlicher. Eine Integration in bestehende Endprodukte dürfte daher leicht möglich sein.
Googles Tacotron 2-Projekt Audio-Beispiele
videoplayer00:25

Fast so gut wie Menschen

Laut den für das Projekt verantwortlichen Forschern wurde das System mit einem 24-stün­di­gen Datensatz trainiert, das von einer professionellen Sprecherin in amerikanischem Englisch eingesprochen wurde. Durch den Einsatz so genannter Mel-Spektogramme als Zwi­schen­stu­fe erreiche Tacotron 2 eine besonders natürlich klingende Sprachausgabe, da diese eine höhere Abbildung der Tonhöhen ermöglichten.

Um die Qualität des Systems zu bewerten, wur­den 100 zufällig ausgewählte Sequenzen als Audiodateien erstellt, welche anschließend von Menschen auf einer Skala von 1 bis 5 bewertet wurden. Der daraus ermittelte "Mean Opinion Score" (MOS) lag für das KI-System bei einem extrem guten Wert von 4,525. Echte mensch­li­che Aufnahmen liegen mit 4,58 nur un­we­sent­lich darüber.

Demo-Dateien verblüffen

Wer sich von Googles neuer Sprachausgabe selbst überzeugen will, kann dies auf einer Demoseite (siehe Video oben) tun. Dort haben die Forscher eine Reihe von Tondateien für Textschnipsel hochgeladen, die dem System vorher nicht bekannt waren. Die hohe Qualität der Sprachausgabe ist wirklich verblüffend und von der normalen menschlichen Aussprache praktisch nicht mehr zu unterscheiden. Tacotron 2 kommt sogar mit Tippfehlern zurecht und kann die einzelnen Wörter so in den Gesamtkontext einordnen, dass die Betonung dazu passt.

Auch wenn es sich bei dem KI-System nur um Grundlagenforschung handelt. Angesichts der nahezu perfekten Resultate dürfte es nicht allzu lange dauern, bis Google die Technik in den Google Assistant und andere Produkte integriert. Auch andere IT-Firmen wie Googles chinesisches Pendant Baidu arbeiten bereits an ähnlichen Systemen. Bereits im März diesen Jahres hatten die Baidu-Ingenieure bei ihrem Sprachausgabe-System einen Durchbruch vermeldet.
☀ Tag- / 🌙 Nacht-Modus
Desktop-Version anzeigen
Impressum
Datenschutz
Cookies
© 2024 WinFuture