Es schimmert, es glüht, es funkelt - Zur Ästhetik der KI-Bilder

von Roland Meyer

Da war es wieder, dieses Leuchten. Anfang März kündigte Open AI ein „experimentelles“ Update seiner KI-Bildgenerierungssoftware Dall-E an, und viele der Ergebnisse, die bald auf Twitter und anderswo zirkulierten, wirkten auf den ersten Blick seltsam vertraut: Strahlten sie doch jenen auratischen Glanz aus, der zuvor für allem für die Produkte der Konkurrenz von Midjourney typisch schien. Doch Midjourney, das zunächst vor allem als Spezialist für’s „Malerische“ galt (oder, weniger freundlich ausgedrückt: für eher kitschige Fantasy-Illustrationen), scheint mittlerweile Dall-E auch in Sachen „Fotorealismus“ den Rang abzulaufen – und das ist vermutlich der Grund, warum Open AI sein KI-Modell, rund ein Jahr nach seiner spektakulären Premiere, derzeit generalüberholen lässt.

Das Update, vorläufig nur für einen exklusiven Kreis von Beta-Tester*innen verfügbar, soll schärfere Details liefern, eine höhere Bildqualität und realistischere menschliche Gesichter. Doch was es vor allem zuverlässig liefert, so hat es der Konzeptkünstler Nils Pooker, der es bereits ausprobieren durfte, treffend benannt, ist „fluffy glamour glow“: Ein diffuses Schimmern, Funkeln und Glühen, als ob die Bilder von innen heraus leuchten würden.

KI-Modelle wie Dall-E, Midjourney oder die ebenfalls beliebte Open-Source-Variante Stable Diffusion versprechen, nahezu jeden nur denkbaren visuellen ›Stil‹ perfekt zu imitieren. „In the style of …“ im Prompt scheint zu genügen, um vom Pinselstrich van Goghs über den spezifischen Look der Pixar-Filme bis zur Anmutung alter Polaroids alle möglichen ‚Stile‘ auf einen beliebigen Bildgegenstand zu applizieren. Stil, im allerweitesten Sinne des Wortes verstanden als Bündel wiedererkennbarer formaler Qualitäten, wird so zum scheinbar beliebig einsetzbaren Parameter der Bilderzeugung. Doch die sich ankündigende ‚Midjourneyfizierung‘ von Dall-E macht deutlich, dass zumindest die kommerzielle KI-Bildgenerierung, wie sie derzeit vermarktet wird, auch ihren eigenen wiedererkennbaren Stil ausbildet – eben jenen „fluffy glamour glow“, der sich, wie Pooker auf Twitter demonstrieren konnte, beim neuen Dall-E selbst da einstellt, wo man die Software um eine Paul-Klee-Variation oder ein Landschaftsgemälde im Stil Gustave Courbets bittet.

Dieser Look diffusen Schimmerns, Glühens und Funkelns ist kein genuines Produkt ‚künstlicher Intelligenz‘. Varianten des Looks finden sich auf Instagram oder in aktuellen Werbekampagnen, auf Buchcovern und in TV-Serien, und zahlreiche Youtube-Tutorials führen vor, mit welchen „Glow“-Effekten sich Bilder in Photoshop zum Leuchten bringen lassen. Doch seine eigentliche Heimat scheint er auf Plattformen wie DeviantArt gefunden zu haben, einer kommerziellen Online-Kunst-Community, auf der aktuell 48 Millionen registrierte Nutzer*innen ihre digitalen Werke anbieten. Nicht zufällig wird DeviantArt, ebenso wie Midjourney und Stability AI (die Firma hinter Stable Diffusion), derzeit in den USA von einer Gruppe von Künstler*innen wegen Urheberrechtsverletzung verklagt: Die Plattform soll nämlich ihren eigenen Bildgenerator auf Stable-Diffusion-Basis, „Dream Up“, unter anderem mit den Bildern der Kläger*innen trainiert haben.

Welche Rolle die Millionen von digitalen Illustrationen und Fotografien auf DeviantArt für das Training von Midjourney oder der neuen Dall-E-Version gespielt haben, bleibt zwar bislang das Geheimnis der Firmen, aber wer sich ein wenig auf dem Midjourney-Discord oder anderen einschlägigen Foren umschaut, erkennt schnell, dass die ästhetischen Vorlieben, die bei DeviantArt vorherrschen, auch dort dominieren. Das betrifft das einschlägige Motivrepertoire zwischen Science-Fiction und Fantasy, Manga und Märchenwelt, Cyber- und Steampunk, ebenso wie eher formale Aspekte der Farbigkeit und Bildkomposition. Wenn sich also, jenseits charakteristischer Artefakte wie der anhaltenden Schwierigkeit der KI, anatomisch überzeugende Hände zu generieren, derzeit so etwas wie ein Stil kommerzieller Bildgenerierungssoftware abzeichnet, dann ist es letztlich wohl der Stil von DeviantArt.

Charakteristisch für diesen Stil ist jenes diffuse, aber intensive Licht, das weniger von einzelnen Lichtquellen zu stammen als vielmehr aus dem gesamten Bild herauszustrahlen scheint – ein Effekt, der sich in der KI-Bildgenerierung, die ja im Gegensatz zu Raytracing oder anderen klassischen Verfahren der Computergrafik kein optisches Modell der Lichtführung kennt, noch verstärkt. Denn KI-Bildgeneratoren simulieren Lichtführung als rein visuelles Phänomen: Sie sind, anders als etwa Renderingprogramme, unfähig zur exakten Berechnung von Lichtstrahlen und ihren Effekten, aber sehr effizient darin, Licht und Schatten visuell stimmig in der Bildfläche zu verteilen. Darin ähnelt Bildgenerierung, selbst bei scheinbar ›fotorealistisch‹ anmutenden Bildern, weit mehr der Malerei als der Fotografie oder anderen optischen Medien. Tatsächlich ist das vielleicht eine der Pointen jener Ästhetik des Schimmerns, die sich mit Midjourney und dem neuen Dall-E durchzusetzen scheint: Der vermeintliche fotografische Realismus, auf den viele dieser Bilder zielen, ist primär ein malerischer Effekt.

Verstärkt wird das diffuse Leuchten durch ein wiederkehrendes Farbschema, das sich –– mal mehr, mal weniger deutlich – durch den Output dieser kommerziellen KI-Tools zieht. Es ähnelt dem seit einigen Jahren überaus beliebten „Teal and Orange“-Look, der mittlerweile in zahlreichen Blockbuster-Filmen und Streaming-Serien zum Einsatz kommt, als Standard-Filter bei Instagram verfügbar ist und zum Beispiel von Adobe als der einschlägige Look des 21. Jahrhunderts vermarktet wird, um Videos und Fotos mehr „Leben“ einzuhauchen. Dabei geht es darum, bestimmte Bildpartien, vor allem die Hauttöne menschlicher Gesichter, in warmen, orange-gelblich leuchtenden Farben wie von Sonnenschein durchflutet vor einem eher kalten, blaugrünlichen Hintergrund hervortreten zu lassen. Zentrale Bildmotive rücken so in den Fokus der Aufmerksamkeit, das Bild wirkt kontrastreicher, lebendiger, zugleich durch das reduzierte Farbspektrum auch einheitlicher und harmonischer – ein Look, der zugleich zeitgenössisch wie vage nostalgisch anmutet (mehr dazu bald in Berit Glanz‘ neuem Buch über Filter).

Wer einmal auf solche forcierten Warm-Kalt-Kontraste geeicht ist, wird sie im Output der Bildgeneratoren immer wieder entdecken: Insbesondere die Kombination von warmen Kupfer- und Bronzetönen mit blaugrünlichen Metallic-Farben, typisch für viele Fantasy- oder auch Steampunk-Illustrationen auf DeviantArt, legt sich als glänzender Farbschleier auch über vermeintlich fotorealistische KI-Bilder. Eine Variante dieses Schemas ist der Kontrast von hellem Türkis und dunklem Magenta oder „ultra violet“, ein Look, der vage an 80er-Jahre-Cyberpunk-Ästhetik erinnert und wie „Teal and Orange“ in den letzten rund zehn Jahren beinahe zu einem Klischee des Color Grading, der Farbabstimmung für Kino und TV, geworden ist. Im Farbglanz kommerzieller KI-Bildgenerierung verdichten, verstärken und verfestigen sich so die visuellen Trends der jüngsten Vergangenheit.

Damit aus dem bloßen Glänzen aber ein wahrhaftes Funkeln wird, muss noch ein weiteres Element hinzutreten. Typisch für viele der Bilder auf DeviantArt wie für den Output von Midjourney erscheint die Kombination extremer Detailschärfe in einzelnen Bildelementen, auch solchen, die im Schatten oder Hintergrund liegen, mit diffusen atmosphärischen Unschärfen und selektiv weichgezeichneten Konturen. Besonders augenfällig wird das dort, wo es um etwa Wolken, Haare oder schimmerndes Fell geht: das „fluffy“ in „fluffy glamour glow“.

Der partielle Weichzeichner erinnert an den beliebten „Bokeh“-Effekt, bei dem Bildhintergründe in der Unschärfe verschwimmen; die hyperrealistische Detailliertheit wiederum ähnelt jenen Effekten, die etwa iPhones der neueren Generationen mittels »Deep Fusion« und High Dynamic Range (HDR) erzeugen, indem sie eine Vielzahl unterschiedlicher Einzelaufnahmen algorithmisch miteinander verrechnen. Dabei entstehen standardmäßig Bilder, die häufig irritierend artifiziell wirken: Wolkenformationen etwa, die sich so übernatürlich kontrastreich vom Himmel abzeichnen, dass sie, wie Kyle Chayka im New Yorker schrieb, an die „übersaturierten Horizonte von Anime-Filmen oder Computerspiele“ erinnern. Der „fluffy glamour glow“ führt so einen Trend der Aufhebung aller Grenzen zwischen fotografischer Aufzeichnung und algorithmischer Halluzination fort, der dank computational photography längst unsere smarten Geräte erfasst hat.

Insbesondere bei Midjourney tritt zur typischen Farbigkeit und selektiven Detailschärfe noch ein weiteres wiedererkennbares Stilelement hinzu: Zentrale Bildmotive werden nicht selten in die Bildmitte gerückt, und wenn der Hintergrund nicht ohnehin räumlich unbestimmt bleibt, erscheint er meist als zentralperspektivischer Tiefenraum, dessen Fluchtpunkt häufig ebenfalls in der Bildmitte liegt. In früheren Versionen der Software waren zudem bestimmte Kompositionsschemata wie mittig positionierte Figuren vor leuchtenden, sich nach außen hin abdunkelnden konzentrischen Kreisformen so typisch für deren Output, dass etwa das durch einen Kunstpreis auf einer Landwirtschaftsmesse in Colorado berühmt gewordene Bild des Amerikaners Jason Allen für nahezu alle außer der Jury auf den ersten Blick als Midjourney-Produkt erkennbar war.

Inzwischen ist die Variationsbreite größer geworden, doch immer noch gibt es eine wahrnehmbare Vorliebe für frontale, symmetrische Kompositionen, die manchmal auch wie mit einer leichten Fischaugenoptik verzerrt und so noch stärker auf die Bildmitte hin ausgerichtet erscheinen. Unterstützt wird dies gerne durch einen auch auf Instagram beliebten Effekt: eine subtile Vignettierung, die die Ränder dunkler erscheinen lässt und das Bildzentrum umso stärker hervorhebt. All diese Stilmittel, die sich nicht zuletzt dank einschlägiger Apps und Filter in unterschiedlichem Maße in vielen Bildern finden lassen, die heute auf digitalen Plattformen zirkulieren, zielen auf denselben Effekt: Das zentrale Bildmotiv soll gleichsam aus dem Bild hervortreten und direkt unseren Blick adressieren.

Was KI-Tools wie Midjourney derzeit mit diesen ästhetischen Standardvorgaben massenhaft produzieren, lässt sich leicht als Kitsch abtun. Dennoch lohnt es, dessen formale Qualitäten möglichst genau zu beschreiben. Denn dieser Stil kommerzieller Bildgenerierung ist keineswegs willkürlich oder bedeutungslos. Vielmehr verweist er auf zeitgenössische ästhetische Werte, die sehr viel mit den Medien zu tun haben, mit denen wir heute Bilder betrachten. Digitale Bilder sind für die Anzeige auf mobilen Displays bestimmt: Es sind Bilder aus Licht auf kleinen leuchtenden Rechtecken, die uns direkt und individuell ansprechen sollen.

Mehr denn je, so scheint es, erwarten wir von Bildern heute, dass sie zugleich aus sich heraustreten und uns in ihren Bann ziehen. Umso stärker sie dabei glänzen, umso erfolgreicher erscheinen sie gegenüber all den anderen Bildern, mit denen sie konkurrieren und die stets nur einen Klick oder eine Wischbewegung auf dem Touchscreen weit entfernt sind. Doch wo alles schimmert, glüht und funkelt, droht es zugleich, immer austauschbarer zu werden. Es ist daher wohl nur eine Frage der Zeit, bis die KI-Firmen beginnen, das Leuchten ihrer Bilder wieder ein wenig zu dimmen. Tatsächlich deutet manches, was bereits von der neuesten, mittlerweile fünften Midjourney-Version zu sehen ist, darauf hin, dass genau das geschieht.

Der Autor dankt allen, die diese Phänomene mit ihm im 54books-Discord diskutiert haben.

Es schimmert, es glüht, es funkelt – Zur Ästhetik der KI-Bilder

Weiterlesen: