Jetzt auch mobil Kommentieren!

Stimmen aus Sprachgewirr filtern: Für Google kein Problem mehr

Von Markus Kasanmascheff am 16.04.2018 12:42 Uhr
1 Kommentare

Google hat ein auf neuronalen Netzen basierendes KI-System entwickelt, welches einzelne Stimmen aus einem Sprachgewirr mit meh­re­ren Sprechern herausfiltern kann. Anders als bisherige Systeme, analysiert die neue Technologie sowohl Audio- als auch visuelle Daten aus Videos, um besonders effektiv die Stimme einzelner Personen erkennen zu können.

Der von Google genutzte Ansatz repliziert die als Cocktailparty-Effekt bezeichnete Fä­hig­keit des menschlichen Gehörsinns zum selektiven Hören, bei der eine bestimmte Schall­quel­le aus einem Gemisch von Störgeräuschen verstärkt bzw. herausgefiltert wird. Das von Google entwickelte KI-System wurde mit 100.000 Youtube-Videos in hoher Qua­li­tät trai­niert, bei denen jeweils nur ein Sprecher ohne Störgeräusche zu hören war und durch künst­lich durch zusätzliche Stimmen und Störgeräusche modifizierte Versionen der gleichen Videos.

Durch die Vergleichsmöglichkeit zwischen den einzelnen Stimmen und dem künstlichen Stim­men­ge­wirr in zwei ansonsten identischen Videos war das KI-System in der Lage, die notwendigen Muster zu erkennen und eine automatische Filterfunktion für bestimmte Stim­men zu erlernen.

Technologischer Zwischenschritt

In Googles Demoanwendung lässt sich das System durch simples Anklicken des gewünschten Sprechers oder durch einen Schieberegler nutzen, bei dem man Stimmen ein- und ausblenden kann. Das von Google veröffentlichte Beispielvideo ist nur eine von vielen Demos, mit dem der Suchkonzern die Leistungsfähigkeit des Systems demonstriert.

Zumindest bei zwei frontal gefilmten Sprechern erreicht der automatische Stimmenfilter eine exzellente Qualität. Google sieht nach ei­ge­nen Worten die Technik als eine Vorstufe für künftige automatische Systeme zur Untertitelgenerierung an. Für die bislang primär auf Titeln und Begleittexten für Youtube-Videos beruhende Suchfunktion könnte dies einen Quantensprung bedeuten. Für deutlich mehr sprach­ba­sier­te Videos dürfte damit eine Textsuche für gesprochene Worte möglich sein.
whatsapp
Jede Woche neu: Top-News per E-Mail
1 Kommentare lesen & antworten
Hoch © 2000 - 2018 WinFuture Impressum