von Simon Sahner
Auf dem Foto, das ich von Maudie Giffard auf Twitter finde, schaut mich die junge Frau Anfang 30 zögerlich lächelnd durch die Kamera an. Die Haut in ihrem Gesicht ist leicht gerötet und glänzt etwas, ihr Ausdruck verrät eine Überforderung. Sie sieht aus als wäre sie gerade nach einiger Anstrengung wieder zur Ruhe gekommen. Die schulterlangen braunen Haare sind leicht zerzaust, die ebenso braunen Augen blicken in die Kamera als hätten sie nur wenige Sekunden gehabt, um sich reflexartig auf den Moment der Bildaufnahme einzustellen. Vielleicht ist sie gerade nachts aus einem Club gekommen und jemand hat sie überraschend fotografiert. Maudie ist 31 Jahre alt, lebt in einer offenen Beziehung und wohnt im Stadtteil Moskowski der russischen Hauptstadt Moskau.
Maudie existiert nicht.
Maudie Giffard ist eine fiktive Person, ein Mensch mit einer erfundenen Geschichte und einer ebensolchen Persönlichkeit. Ein Foto gibt es trotzdem. Oder wenigstens etwas, das aussieht wie ein Foto. Denn das Bild, das ich im Internet gefunden habe, zeigt einen Menschen, der nie gelebt hat und nie leben wird. Es zeigt also genau genommen nicht einmal einen Menschen, sondern etwas, das ein*e Betrachter*in spontan als menschliches Gesicht erkennt. In Wahrheit handelt es sich um ein Bild, das von StyleGAN über die Website thispersondoesnotexist.com erzeugt wurde. StyleGAN ist ein Generative Adversarial Network, eine Art künstliche Intelligenz, bei der zwei künstliche neuronale Netzwerke gegeneinander agieren. Vereinfacht gesagt vollführen die beiden einen Wettstreit: das eine Netzwerk erzeugt auf Grundlage von Daten ein Ergebnis – in diesem Fall das Abbild eines Gesichts, das einem fotografischen Portrait eines Menschen zum Verwechseln ähnlich sieht -, das andere Netzwerk hat die Aufgabe, das künstlich erzeugte Ergebnis von den Originaldaten zu unterscheiden. Ziel des ersten Netzwerks, des Generators, ist es, das zweite Netzwerk, den Discriminator, zu überlisten. Beide Seiten werden mit jeder Runde ein bisschen besser.
Fotografie – Realität schreiben
Jedes Mal, wenn die Website geladen wird, generiert das StyleGAN ein solches Bild, das im Idealfall einem Foto eines real existierenden Menschen so ähnlich sieht, dass wir auf den ersten Blick nicht sagen können, ob es einen echten Menschen zeigt oder nicht. Dieser Umstand rüttelt an über Jahrzehnte etablierten Grundfesten unserer Wahrnehmung von Fotos, ob das, was wir sehen tatsächlich das ist, was wir meinen zu sehen. Über hundert Jahre lang haben wir gelernt, Fotografien von anderen Bildern zu unterscheiden und dabei einen Status der Abbildung von Realität an eben dieser Differenz festzumachen. Eine Fotografie ist per Definition ein Abbild von einem Objekt, das physisch existiert, erzeugt dadurch, dass Licht auf dieses Objekt fällt und dessen Reflektion festgehalten wird. Im griechischen Ursprung des Wortes steckt diese klare Verbindung zur physischen Realität noch in der Wortbedeutung: Die Fotografie beschreibt etwas mit Licht (photo gr. Licht, gráphein gr. schreiben).
Intuitiv meinen wir zu erkennen, wenn wir eine Fotografie vor uns haben, und im selben Moment meinen wir, dadurch etwas von einer wie auch immer gearteten Realität zu erfassen. Selbst ein manipuliertes Foto zeigt uns einen Teil von etwas, das existiert, auch wenn es uns in den Details signifikant täuschen mag. Angesichts manipulierbarer Fotos aber erscheint Susan Sontags Behauptung, Fotos seien weniger Aussagen über die Realität als vielmehr Teile von ihr, schon 1973, als ihr Band On Photography erschien, zu kurz gedacht. Und dennoch erschließt sich den meisten Menschen der Gedanke, der dieser Aussage zugrundeliegt, sofort: „Something we hear about, but doubt, seems proven when we’re shown a photograph of it.“ Fotos sollen davon zeugen, dass etwas wirklich geschehen ist und existiert. In der ersten Phase moderner True-Crime-Erzählungen in den 1920er Jahren waren Fotos vom Tatort und der Leiche der entscheidende Faktor für die Unterscheidung zwischen einer fiktionalen Kriminalgeschichte und der weitestgehend faktualen, wenn auch reißerischen Narration eines Gewaltverbrechens in einem Magazin. Nicht umsonst sprechen wir auch heute in Zeiten digitaler Bildmanipulation von Beweisfotos.
Insbesondere irritierend ist diese Einordnung von Sontag vor dem Hintergrund, dass gerade in den Jahren, als sie ihren Essay über Fotografie schrieb, die Kunstwelt mit dem Versuch konfrontiert wurde, Fotografien so detailgenau auf eine Leinwand zu malen, dass eine Unterscheidung erst auf den zweiten oder dritten Blick möglich erscheint. Der Fotorealismus der 1960er/1970er wirkt aus heutiger Sicht teilweise wie eine vor allem handwerkliche Herausforderung, die nicht zuletzt darin bestand, die Lichtspiegelung auf einer glänzenden Oberfläche, die Fotos so einzigartig erscheinen lässt, mit malerischen Fertigkeiten, nachzubilden. Nicht umsonst zeigen viele Gemälde dieser Strömung der Kunstgeschichte Chromfelgen, Glasfassaden und ähnliches im strahlenden Sonnenlicht.
Absturz ins Uncanny Valley
Es ist beinahe erstaunlich, wie naiv der einleitende Essay In Plato’s Cave von Sontags On Photography in Zeiten digital nahezu perfekt manipulierten Bildmaterials wirkt. Dabei muss man noch nicht einmal auf die erschreckend realistischen DeepFake-Videos von Tom Cruise verweisen, die Anfang des Jahres auf TikTok kursierten, es genügt die Debatte um die Authentizität von Instagram-Fotos. Sontags Behauptung „[p]hotographs will offer indisputable evidence that […] fun was had,” scheint angesichts der Fotos strahlend lachender Menschen unter dem #atmylowest („an meinem tiefsten Punkt“) seltsam aus der Zeit gefallen. Fotos zeigen eben nicht grundsätzlich, was ist, sondern nur was sichtbar ist oder in einem bestimmten Moment sichtbar war. Selbst von der schlimmsten Party existieren Bilder, die von großer Freude zeugen könnten, und auch traurige oder depressive Menschen lachen. Auch wenn man sich der Macht der digitalen Bilder des Influencer-Kosmos nicht immer entziehen kann, ist die Erkenntnis, dass wir Fotos nicht trauen können, längst tief in die Einordnung unserer Wahrnehmung eingesickert. In den meisten Fällen jedoch geht es dabei um die Manipulation unserer Wahrnehmung durch Perspektive, Ausschnitte, Lichtstimmung und Retuschierungen. Was gezeigt wird, beruht dabei aber immer noch auf etwas, das tatsächlich existiert (hat) und als Fotografie festgehalten wurde.
Die Bilder des StyleGAN oder die DeepFakes von Tom Cruise aber konfrontieren uns mit dem Unheimlichen, mit dem, was uns vertraut sein müsste, uns aber fremd erscheint. Sie lösen eine Irritation aus. Auf diese Verbindung zum freudschen Begriff des Unheimlichen ist bereits Berit Glanz in ihrem Essay Sonnenaufgang im Uncanny Valley: Navigieren und Überleben im KI-Zeitalter (Kursbuch 199: Unglaubliche Intelligenzen) eingegangen. Das sogenannte Uncanny Valley (das Unheimliche Tal oder im Deutschen eher bekannt als die Akzeptanzlücke) „beschreibt das Phänomen, dass menschenähnliche Objekte, beispielsweise Roboter oder Avatare, bei sehr erfolgreich, aber noch nicht perfekt umgesetzter Menschlichkeit in den Beobachtern ein Gefühl des Ekels und des Unwohlseins erzeugen. Dieses Unbehagen lässt sich auf einer Sympathiekurve als Tal darstellen, das kurz vor der perfektionierten Menschenähnlichkeit auftaucht.“ Dieses Phänomen macht Glanz auch bei den durch GAN erzeugten Bildern aus. Kleine Fehler bei der Erzeugung der Bilder – Glitches – irritieren spontan die Betrachtenden und lösen ein Unwohlsein aus. Dabei bewegt sich die Imperfektion auf einem Spektrum, das von deutlich verzerrten Gesichtern am Rand der Bilder und Haaren im fokussierten Gesicht, die aussehen wie geschmolzen, bis hin zu kleinsten Unebenheiten reichen, die erst durch ein nahes Heranzoomen erkannt werden. Maudie Giffard scheint auf dem einzigen Bild, das je von ihr existieren wird, eine in ihren Hals eingewachsene Haarsträhne zu haben.
Doch es ist nicht nur die von Freud festgestellte Spannung aus Vertrautem und Unvertrautem, die in diesem Fall Unwohlsein und Irritation erzeugt. Viele der StyleGAN Portraits wirken in Zeiten von Hochglanz-Instagram-Fotos, perfekt belichteten und mit Filtern gestalteten TikTok-Videos und professionellen Profilfotos in Sozialen Netzwerken auf eine seltsame Art privat und veraltet. Maudies glänzende Haut, die Anzeichen von Akne auf den Wangen, das überraschte Gesicht und das unvorbereitete Lächeln lassen das Bild wie einen Schnappschuss mit einer digitalen Blitzlichtkamera in den frühen 2000er Jahren wirken. Ein Bild, das man in Ermangelung eines besseren als Profilbild im StudiVZ hochgeladen hätte. Ein Bild aus einer Zeit ohne automatische Fotofilter auf Smartphones, ohne die Möglichkeit noch an der Kamera den Kontrast, die Schärfe und die Helligkeit zu regulieren. Ein Bild, das es im Internet des Jahres 2021 eigentlich nicht mehr gibt.
Eine Geschichte der Irritation
Die Geschichte der Fotografie oder fotorealistischer Bilderzeugungsverfahren ist grundsätzlich auch die Geschichte von Irritation. Ein Foto ist bei genauerer Überlegung etwas, das es eigentlich nicht geben dürfte: Die Abbildung eines Moments an einem bestimmten Ort zu einer bestimmten Zeit, der oft nur für Bruchteile von Sekunden existierte. Auch nach weit über hundert Jahren der Gewöhnung an diese Technik kann sie noch Unwohlsein auslösen, zum Beispiel wenn wir uns selbst nicht mehr in alten Fotos zu erkennen meinen oder wenn ein Foto uns selbst auf eine Weise zeigt, die wir nicht mit unserem Selbstbild in Verbindung bringen. Bilder aus seiner Jugend, schreibt Roland Barthes, weckten in ihm „so etwas wie einen dumpfen Traum“, sein Körper, den er auf den Bildern sieht, scheint „nicht zu mir und doch niemand anders als mir zu gehören“. Es handle sich um „einen Zustand beunruhigender Vertrautheit.“ Da ist es wieder, das Unheimliche, der Moment des Erkennens bei gleichzeitiger Fremdheit.
Bilder, die intuitiv Irritationen und Zweifel erzeugen, sind also keine Seltenheit und nicht zwingend ein Phänomen des digitalen Zeitalters, auch wenn die aktuellen Möglichkeiten der Bildbearbeitung, das Potenzial für solche Irritationen signifikant erweitert haben. Sie sind eine Konstante der Kultur der Fotografie. Aber manchmal geht dieses Unwohlsein der Irritation über das gewohnte Maß hinaus. Immer dann, wenn unsere Erwartungen an gelernte ästhetische Konventionen durchbrochen werden. Dabei sind viele dieser Konventionen weniger bewussten ästhetischen Entscheidungen geschuldet, sondern den technischen Voraussetzungen von Fotografie in der jeweiligen Zeit. Nach Jahrzehnten der massenhaften Fotografie ist in großen Teilen der Welt die Geschichte seit Beginn des 20. Jahrhunderts eng verbunden mit der Möglichkeit einen Moment fotografisch festzuhalten.
Dabei haben sich bestimmte ästhetisch-visuelle Effekte als Resultate der jeweils aktuellen Fototechnik mit bestimmten Zeiten verbunden. Anders gesagt, wir haben uns an bestimmte Merkmale von Fotografien einer bestimmten Zeit gewöhnt. Wer im letzten Viertel des 20. Jahrhunderts aufgewachsen ist, verbindet Schwarz-weiß-Fotografie entweder mit einem besonderen ästhetischen Anspruch oder mit Vergangenheit. Während die 1970er Jahre auf Fotos häufig in einer warmen Farbstimmung erscheinen, sind Bilder der späten 1990er und frühen 2000er Jahre oft durch Blitze partiell überbelichtet. Charakteristisch für Fotos der ersten Digitalkameras, deren Auslöser noch langsamer war als der analoger und heutiger digitaler Kameras, ist oft der Eindruck, dass ein Moment ungewollt festgehalten wurde, weil der eigentliche Moment bereits verstrichen war, als die Kamera endlich das Bild machte. Fotos aus den Jahren vor dem Zweiten Weltkrieg wiederum verbindet man häufig mit Gruppenportraits in sepia oder schwarz-weiß von ernst dreinblickenden Menschen. Die aufwendige und längere Prozedur des Fotografierens erlaubte oft nur ein Bild. Ein Lächeln barg dabei immer die Gefahr, seltsam auszusehen.
Werden diese gelernten Konventionen gestört, entstehen Irritation und Faszination. Besonders deutlich tritt dieses Phänomen auf, wenn wir Bilder sehen, deren Eigenschaften nicht zum Stand der Technik ihrer Zeit passen. Aus diesem Grund können wir uns mit einem leisen Schauern für nachkolorierte Filmaufnahmen und Fotografien aus dem Ersten Weltkrieg oder den 1920er Jahren begeistern. Der Film They shall not grow old (2019) der ausschließlich aus nachkolorierten und aufbereiteten Aufnahmen aus dem Ersten Weltkrieg besteht, ist eine beklemmende Erfahrung, weil die jungen Männer, die freudig in den Krieg ziehen, in den Schützengräben stehen und dann im Schlamm liegen, auf einmal in Farbe, gestochen scharf und mit Ton vor unserem Auge erscheinen. Die Distanz, die wir durch die technischen Einschränkungen der Aufnahmetechnik der Zeit wie einen wohligen Vorhang zwischen uns und dem Grauen dieses Krieges aufgehängt haben, wird in diesem Moment zurückgerissen. Diese Menschen erscheinen uns auf einmal näher als sie uns für unser Empfinden sein sollten.
Noch deutlicher wird dieser Effekt, wenn es sich nicht einmal um nachträglich aufbereitete Bilder handelt. Der französische Bankier Albert Kahn ließ zu Beginn des 20. Jahrhunderts als erster in größerem Umfang Farbfotografien mit dem Autochromverfahren erstellen. Getrieben von dem Wunsch, Menschen möglichst vieler unterschiedlicher Kulturen auf Fotos festzuhalten, beauftragte er Mitarbeiter*innen, in die von Frankreich aus entlegensten Winkel zu reisen. Dabei entstanden in dem Projekt Die Archive des Planeten über 70.000 Farbfotografien. Viele dieser Bilder erzeugen auf ähnliche Weise den Eindruck des Unheimlichen wie Bilder des StyleGAN, sie zeigen uns Menschen auf eine Art, die unsere gelernten ästhetischen Konventionen für diese Zeit stört. Die Pariser Familie, die uns in klaren Farben auf einem Foto von 1914 aus einem Hinterhof anschaut, und die Männer in einem Gefängnis von Ulaanbaatar, die 1913 für einen Fotografen von Kahn posierten, erzeugen als Farbfotografie einen Näheeffekt bei Betrachtenden im 21. Jahrhundert, der normalerweise auf Fotos dieser Zeit durch die vergilbte und schwarz-weiß Darstellung aufgelöst wird. Diese Menschen erscheinen uns auf einmal näher als sie uns sein dürften. Die Farbe verleiht ihnen eine Realität, die uns befremdet, weil diese Personen unserer Welt zugehörig erscheinen, auch wenn sie nie zeitgleich mit uns gelebt haben.
Das ungute Gefühl
Zwischen diesen unheimlichen Fotos aus mongolischen Gefängnissen und den digital erzeugten unheimlichen Bildern von Menschen, die nie existierten, liegen etwa hundert Jahre und doch weisen sie bei genauem Hinschauen erstaunliche ästhetische Gemeinsamkeiten auf, die auf Einschränkungen der jeweiligen Technik beruhen. Die lange Aufnahmezeit der Autochromebilder aus Zeiten Albert Kahns erzeugt Verwischungen und Ungenauigkeiten bei Bewegungen im Bildhintergrund, die den Fehlern des GAN irritierend ähneln. Da wirken zwei Männer auf einem Markt in Sarajevo 1912 beinahe wie nachträglich ins Bild montiert, so scharf zeichnen sie sich von dem ungleichmäßig verwischten Hintergrund ab. Das Gesicht eines weiteren Mannes verschwindet noch am linken Rand verzerrt geisterhaft aus dem Bild. Die extrem geringe Schärfentiefe auf dem Bild der Familie im Pariser Hinterhof 1914 führt dazu, dass Personen, die sich fast auf einer Höhe befinden, nicht gleich scharf abgebildet wurden. Sie scheinen nicht in der gleichen Dimension zu existieren, das Bild wirkt auf unheimliche Art verschoben.
Vielleicht ist diese Irritation der Einstieg in die Zweifel, die selbst die Bilder der GANs hervorrufen, die auf den ersten Blick echt erscheinen. Es ist eine nachträglich für den einzelnen nicht zu beantwortende Frage, ob man selbst auf die DeepFakes von Tom Cruise hereingefallen wäre oder ob man auch die perfekt scheinenden Bilder von thispersondoesnotexist.com nicht als Abbildungen nicht existierender Menschen erkannt hätte. Es gibt in diesen Fällen keinen Weg zurück in Platons Höhle. Was bleibt, ist bei mir zumindest das Gefühl, dass an diesen Videos und Bildern etwas nicht stimmt, dass etwas irritiert. Tom Cruise wirkt zu überdreht charismatisch, sein Gesicht scheint sich zu deutlich vom Hintergrund abzugrenzen, das an sich perfekte Mienenspiel wirkt stellenweise doch zu steif. Was bei mir und anderen Zweifel auslöst, scheint jedoch aktuelle Software, deren Aufgabe es ist, DeepFakes zu erkennen, überzeugt zu haben. Die Firma Sensity.ai, die vorgibt DeepFakes mit einer Quote von 98,1% zu erkennen, bescheinigte den vermeintlichen Tom Cruise-Videos Authentizität.
Eventuell ist unser Bauchgefühl, unser internalisierter Irritationsradar doch besser ausgestattet. Denn es berichten zahlreiche Personen von dem Gefühl, dass bei den Videos etwas nicht stimmt. Trotz oder gerade wegen dem unübersehbar typischen Tom Cruise Lachen, der charming boy Attitüde und dem Charisma scheint irgendwas zu stören. Das wäre ein Hinweis darauf, dass auch im Falle dieser künstlich erzeugten Portraits und DeepFake-Videos unsere gelernten Konventionen ästhetischer Eigenschaften gestört werden, ohne dass wir auf den ersten Blick erkennen könnten, in welcher Form das genau geschieht. Aber vielleicht meldet sich in diesen Momenten nur die panische Selbstüberzeugung, dass wir Menschen dazu in der Lage sein sollten, zu erkennen, wenn künstliche Intelligenz im Spiel ist. Der Produzent hinter den Tom Cruise-DeepFakes, Chris Ume, weist darauf hin, dass solche, nahezu perfekten Ergebnisse derzeit noch einen unverhältnismäßig großen Aufwand darstellen. Was nicht bedeutet, dass sich Anreize, solche Verwirrspiele zu erzeugen, und die technische Herausforderung, sie herzustellen, nicht bald auf einer lohnenswerten Ebene befinden könnten. Die ethischen, gesellschaftlichen und politischen Gefahren, die von scheinbar perfekten Fake-Videos und künstlich erzeugten Gesichtern ausgehen können, sind offensichtlich, sie sind aber vor allem die nächste Stufe einer Herausforderung für den Umgang mit unserer Wahrnehmung und unser Gespür für die Einordnung dessen, was wir sehen. Je besser die Technik wird, desto besser müssen wir werden – wie die Generative Adversial Networks.
Photo by Lysander Yuen on Unsplash