Ein gelber Vogel ist für den Drawing Bot kein großes Problem
Pixel für Pixel
Was für Menschen womöglich trivial klingt, ist für eine Künstliche Intelligenz eine ziemliche Herausforderung. "Wenn man auf Bing geht und nach einem Vogel sucht, dann findet man auch ein passendes Bild. Hier aber werden die Bilder vom Computer erschaffen und zwar von Grund auf, Pixel für Pixel", erläutert Xiaodong He von Microsoft Research per Blogbeitrag (via GeekWire).Bei komplexen Ansagen muss er passen
Begonnen hat das Ganze mit dem CaptionBot, einem Programm, das Fotobeschriftungen erstellt, weil es die Bildinhalte erkennen kann. Danach folgte Seeing AI, ein umfangreiches Tool, das Blinden hilft, den Alltag zu meistern. Nun schließt man den Kreis gewissermaßen, so die Microsoft-Forscher, da man der KI beibringt, selbst "Zeichnungen" zu erschaffen.
Die KI muss "kreativ" werden
Problematisch sind hier aber vor allem die "Zwischenräume", die in der Vorgabe, also der Beschreibung eines Bildes, nicht erwähnt werden. Der Bot muss also eigene Fantasie oder Kreativität entwickeln, um die Lücken zu füllen.Und diese nennt Microsoft Generative Adversarial Network (GAN). Ein Modell generiert hier das Bild, basierend auf Verbindungen zwischen beschreibenden Begriffen und Bildern. Parallel überprüft ein separates Modell, wie authentisch das Bild aussieht. Dieses Hin und Her erschafft dann das Bild und das klappt auch mit erstaunlicher Präzision, jedenfalls bei einfachen Begriffen wie "blauer Vogel" oder "immergrüner Baum". Je komplizierter die Beschreibung ist, desto schwerer tut sich der Bot auch.
Wenn die KI etwas völlig "Verrücktes" zeichnen soll, dann muss sie teils ganz passen, etwa bei der Aufgabe "roter Doppeldeckerbus, der auf einem See schwimmt". Hier kämpft der Bot mit dem Wissen, dass nur ein Boot schwimmen darf, aber ein Bus "bestellt" worden ist. Das Resultat ist ein verschwommenes und fast schon surrealistisches Bild, doch auch komplizierte Fälle will man irgendwann einmal per maschinellem Lernen meistern.