Ein Beitrag von
Dr. Lukas R.A. Wilde
Manch einer mag dem Thema „Künstliche Intelligenz“ schon etwas überdrüssig sein, in den letzten Monaten scheint sich schließlich alles nur noch um „AI-Plattformen“ wie Chat-GPT zu drehen. Die vorliegende Notizensammlung baut indes auf einen Vortrag auf, den ich am 16. Dezember 2022 im Rahmen der Vorlesung „Medienwandel und Medienkonvergenz: Plattformen“ an der Universität Tübingen halten durfte, an welche auch das studentische Filmfestival Tübinale 2023 und die Kurzfilme dieses Jahres anschließen. Obwohl dieser Vortrag kaum vier Monate hinter uns liegt, hat sich die Diskussion um „künstliche Intelligenz“ seither bereits enorm gewandelt, und allein dies – die Geschwindigkeit der gegenwärtigen Medientransformation – ist bemerkenswert.
Ich möchte hier aber nicht über Text-zu-Text-Generatoren wie Chat-GPT, Bing oder Bard nachdenken, die seither maßgeblich die Debatten prägen, sondern bei meinem ursprünglichen Thema bleiben, nämlich sogenannten „AI-Bildern“. Ich werde im Folgenden von generativer Bildlichkeit sprechen. Diese Bezeichnung scheint mir sachlicher und stimmiger als die in vielerlei Hinsicht irreführende Rede von „künstlicher“ „Intelligenz“. Tatsächlich hat auch dieses Thema gerade in den vergangenen Märzwochen wieder deutlich Fahrt aufgenommen (wenn auch sicherlich etwas im Schatten von GPT-4). Dies liegt im Wesentlichen an der Veröffentlichung der neuesten Iteration von Stable Diffusion in der Version 5 am 15. März 2023, welche – das kann man sicherlich sagen – alle Vorgänger-Anwendungen in Sachen Detailreichtum, Vielfältigkeit und Komplexität der Bildergebnisse weit in den Schatten stellt. Die Firma Adobe, bekannt für den digitalen Bildbearbeitungs-Standard Photoshop, hat am 21. März 2023 zudem ein eigenes AI-Plugin namens „Firefly“ angekündigt, durch welche AI-Funktionen zukünftigt wohl in jeden Bildbearbeitungs- und -verarbeitungsschritt einfließen könnten. Mein eigentlicher Anlass für den vorliegenden Text aber ist die Beobachtung, dass AI-Bilder gerade in den letzten Wochen eine bemerkenswerte Verbindung mit der Bildzirkulation von Online-Memes eingegangen sind, oder dass dies zumindest durch einige Ereignisse deutlich(er) wurde. Diesen Zusammenhang und die Frage nach seinen politischen und ideologischen Konsequenzen möchte ich anhand der drei Schlagworte „post-digital“, „post-artifiziell“ und „post-faktisch“ herausarbeiten und dabei auf einige weit kommentierte und diskutierte AI-Memes der letzten Wochen eingehen: Den „Balenciaga Pope“, Donald Trumps AI-imaginierte Verhaftung sowie eine Serie namens „Time Travel Selfies“.
AI-Bilder als Plattform-Bilder
Zur Veranschaulichung der aktuellen technologischen Möglichkeiten – für all diejenigen, die dem Thema vielleicht nicht allzu intensiv folgen – möchte ich auf ein relativ beliebig herausgegriffenes Bild einer Facebook-Gruppe namens „AI Art Universe“ verweisen, in dem Anwender*innen gegenseitig generative Bildproduktionen präsentieren und über die „Prompts“ (die zugrunde liegenden Eingabeaufforderungen) diskutieren. Am 25. März jedenfalls veröffentlichte der User Travis Davids hier eine Bilderserie unter der Ankündigung „Midjourney V5 is so crazy that this artificial intelligence can blend two eras of fashion together to create completely new fashion...wtf! Also, the amount of detail is astounding!“
Der Prompt, mit dem Midjourney V5 hier angeführten (und zahllose weitere) Bilder generierte, lautete demnach schlicht „african tribal fashion but blend it with techwear fashion from Japan in the 90s --v 5“. Weit über bloß generische Bilder und bekannte Ästhetiken hinaus scheint die Plattform hier tatsächlich aus den Milliarden digitaler Artefakte im LAION-Datenset ein komplexes (neues?) Designprogramm zusammenzusetzen. Fragen nach kultureller Aneignung (weder dessen, was hier als „tribal“ noch dem, was als „japanisch“ verstanden wird) stellen hier weder User*innen noch die Plattform selbst, wenn sie auf Knopfdruck eine tatsächlich beliebige Anzahl immer wieder neuer Bilder im selbst generierten Stil ausspuckt.
Während diese Prompt-Eingabe eher kurz gehalten war, scheinen für Midjourney V5-Ergebnisse, mit denen die User*innen zufrieden sind, eher deutlich längere verbale „Kommandos“ typisch; oft viele hunderte Worte, die in iterativen Schleifen so lange variiert werden, bis ein zwar nicht gezielt ansteuerbares und stets nur „wahrscheinliches“, aber eben auch keinesfalls beliebiges Bild heraus kommt. „Prompt Engineering“ wird entsprechend als ganz neues „Skillset“, als beinahe konzeptuell-handwerkliche Fertigkeit, ausgewiesen.
Eine zweite aktuelle Entwicklung wurde ebenfalls bereits angesprochen: Bereits seit Anfang März existieren Stable Diffusion-Plugins für Adobe Photoshop, doch mit Adobes Eigenproduktion Firefly könnten AI-Funktionen zukünftigt wohl in jeden Bildbearbeitungs- und -verarbeitungsschritt einfließen. Damit werden wir es zukünftig wohl nicht mehr mit besonderen Bildern zu tun haben, die wir von „menschengemachten“ unterscheiden, sondern jedes Bild wird mehr oder weniger AI-generiert, wie sie heute bereits stets mehr oder weniger digital sind. Selbst Analogfotografie hat doch zumeist Photoshop zur Nachbearbeitung durchlaufen. Oft spricht man daher davon, dass wir schon lange in einer „post-digitalen“ Gesellschaft leben in welcher die Auszeichnung „digital – oder nicht“ einigermaßen irrelevant geworden ist. Hier ist generative Bildlichkeit also nichts prinzipiell Neues. Und nach einigen Jahrzehnten CGI (computergenerierte Special Effects) im Kino wissen wir natürlich auch lange, dass jedes, auch fotografisch aussehende Bild prinzipiell immer „aus dem Computer“ stammen könnte. AI-basierte Bildlichkeit scheint aber dennoch eine ganz neue, spezifische Qualität zu besitzen, die vielleicht in einem besonderen Zusammenhang zwischen Plattform-Logiken und allen daran anknüpfenden Fragen der Bildästhetik, Bildbedeutung und Bildrelevanz besteht: Zumindest im Moment nämlich (Stand 1. April 2023) scheinen AI-generierte Bilder – anders als die Chat-GPT-Texte – ganz besonders dafür angefertigt zu werden, über soziale Netzwerke geteilt, bewundert, kommentiert und variiert zu werden.
Das Verhältnis von generativer Bildlichkeit und Plattform-Logik ließe sich auf ganz unterschiedliche Weisen bestimmen. Zunächst einmal lassen sich die unterschiedlichen gegenwärtigen Anbieter (etwa DALL·E, Midjourney oder Leonardo) selbst als Plattformen mit ihren je eigenen „Interface-Regimes“ im Sinne Michael Seemanns (2021, 135–144) diskutieren. Im Falle von Midjourney müssten wir vielleicht von einer komplexer geschachtelten „Plattformen-Kaskade“ sprechen, insofern das Interface in die Messenger- und Diskussions-Software Discord eingebunden ist. Auf die open source-Software Stable Diffusion, die komplett auf dem eigenen Rechner installiert und betrieben werden kann, trifft dies freilich schon nicht mehr so zu, und Firefly wird umso stärker, wie bereits angemerkt, „nahtlos“ mit sonstiger digitaler Bildmanipulation verbunden sein. Sicherlich wäre es dann wiederum einige Überlegungen wert, inwiefern nicht bereits der im Hintergrund ablaufende algorithmische Funktionsmechanismus, also ganz unabhängig vom sichtbaren „Frontend“, exakt eine Plattform im Sinne Seemanns ist („erwartete Vorselektionen potentieller Verbindungen, die unerwartete Anschlussselektionen konkreter Verbindungen wahrscheinlicher machen“, 2021, 31). Sie mediiert zwischen User*innen und den für sie unsichtbaren Datensets aus Millionen von Image-Text-Pairings, aus denen immer wieder neue Bilder entstehen. All dies wäre eigene Überlegungen wert. Mir soll es im Folgenden aber um einen vordergründig viel simpleren Aspekt gehen, nämlich dass generative Bilder ganz wesentlich für die Zirkulation, Verbreitung und Kommentierung in sozialen Netzwerken (Kommunikationsplattformen) angefertigt werden. Ja, es gibt bereits zahllose andere „Use Cases“ die viel diskutiert wurden und werden (Kris Kashtanovas Midjourney-Comic „Zarya of the Dawn“, Jason M. Allen’s Midjourney-Artwork „Théâtre D‘opéra Spatial“, Boris Eldagsens Sony World Photography Award-gekürtes AI-Bild „Die Elektrikerin“ oder die AI-erzeugten Hintergründe im Netflix-Anime „The Dog and The Boy“ von Ryotaro Makihara). Und auch der Einsatz von generativer Bildlichkeit zur politischen Propaganda und gezielten Täuschung scheint gerade gefährlich zuzunehmen, wie man leider auf vielen Accounts von AfD-Politiker*innen beobachten kann, auf denen fast nur noch AI-Bilder gepostet werden. Wenn man aber etwa bei Midjourney live zusieht – was hier prinzipiell immer möglich ist – welche Eingaben User*innen tätigen und welche Bilder sie sich generieren lassen, so lässt sich doch ein großer Teil Fan-Kulturen, generischen Artworks oder eben der Meme-Erzeugung zuschlagen. Sichtbar geworden ist dieser Zusammenhang vor allem durch ein „Diskursereignis“ vom 24. März 2023, das hinterher zugleich als das „erste Midjourney-Meme“ (Martin & Simon Social Media Watchblog vom 28.3.2023), als „the first real AI-generated hoax“ (Ryan Broderick) oder auch als „the first real mass-level AI misinformation case“ (nochmals Broderick via Twitter) diskutiert worden ist. Was war passiert?
Der "Balenciaga Pope" als Diskursereignis
Am 24. März 2023 also postete Pablo Xavier, ein 31-jähriger Bauarbeiter aus Chicago, in der bereits erwähnten AI Art Universe-Facebookgruppe und später im Subreddit r/midjourney ein AI-generiertes Bild von Papst Franziskus in einem stylischen weißen Parka. Der begleitende Textkommentar auf Twitter, wo es von einem User namens @skyferrori maßgeblich weiter verbreitet wurde, lautete lediglich „OKAAYYY“. Innerhalb von Stunden wurde es über viele weitere Netzwerke geteilt. Innerhalb weniger Tage erhielt es 200.000 Likes und 18.000 Retweets alleine via Twitter. Die Pointe dabei ist natürlich, wie der Journalist Gregor Schmalzried sogleich kommentierte, „160k Likes für ein AI-generiertes Bild und 99% der Reactions haben keine Ahnung dass das nicht echt ist“. Auch zahllose andere bekannte Twitter-Accounts wie die von Stephan Anpalagan gaben unmittelbar zu, auf das Bild hineingefallen zu sein („Ich bin ehrlich: Ich habe wirklich gedacht, dass der Papst diese Daunenjacke getragen hat“).
Im Guardian schrieb Joel Golby am darauffolgenden Tag: „I thought I was immune to being fooled online. Then I saw the pope in a coat“. Oder mit dem Autor Paul Bokowski: „Wenn selbst Menschen aus der eigenen Bubble, clevere Menschen, junge Menschen, nicht sofort begreifen, dass das ein KI-generiertes Bild ist, wie soll das unsere Elterngeneration, unserer Großelterngeneration begreifen. Das Zeitalter der Wahrheit ist vorbei. Ein für alle Mal“. Andere reagierten empfindlicher auf die Behauptung eines früheren und nun angeblich verlorenen „Zeitalters der Wahrheit“, wiesen zu Recht auf einige Jahrzehnte CGI-Bildern und über hundert Jahre Fotomontagen hin. Was man aber natürlich festhalten kann ist, dass sich der Aufwand für und die Zugänglichkeit zu entsprechenden Techniken der „gefälschten“ Bildproduktion in den vergangenen Monaten dramatisch gewandelt hat: Midjourney V5 generiert entsprechende Ergebnisse innerhalb von 30 Sekunden vom Handy aus. Die Gefahr liegt also wohl eher nicht in Bildwerken über Prominente, denen gegenüber man immer eine gewisse Skepsis aufzubringen bereit war, wie Seemann selbst treffend anmerkte: „Die wirklichen probleme werden nicht deepfakes von politiker*innen und prominenten machen, sondern die vom vom (sic!) filialleiter einer sparkasse, dem cto eines kleinen strartups und dem abteilungsleiter eines telekommunikationskonzerns“.
Wenn jedes Bild in Zukunft prinzipiell immer zumindest teilweise von generativen Netzwerken erzeugt oder beliebig modifiziert sein kann – und dafür spricht vor allem Adobes Integration von Firefly in jede Funktion von Photoshop – dann wird dies zukünftigt völlig unentscheidbar, nachgeordnet und letztlich irrelevant werden; ebenso wie es schon jetzt völlig bedeutungslos geworden ist, von „digitalen“ Bildern zu sprechen. Sowohl Handy- als auch Analogfotographie ist doch wohl irgendwann durch Photoshop gelaufen oder könnte es zumindest. So wie wir also bereits in der „post-digitalen“ Gesellschaft angekommen sind, so könnten wir nun bereits mit einem Fuß in einer „post-artifiziellen“ Gesellschaft stehen, wie man mit Hannes Bajohr (2023) sagen könnte: jedes denkbare Bild, in jedem denkbaren Stil, ist immer nur einen glücklichen Prompt weit entfernt und die Unterscheidung „von Mensch – oder von AI?“ wird in einem unentscheidbaren Dazwischen verschwinden. Das muss aber keinewegs bedeuten, dass wir uns auf dem Weg in eine „post-faktische“-Gesellschaft befinden, denn gerade die Frage der mit einem Bild verbundenen Aussagen und der Vertrauenswürdigkeit von teilenden und publizierenden Institutionen könnte im gleichen Maße an Bedeutung gewinnen, wie wir dies nicht mehr scheinbar „einfach selbst sehen“ können (und hier immer wieder Täuschungen erliegen). Roland Meyer sprach hierbei gerade von einer Praxis der „wilden Forensik“, „Kollektive Spekulationen darüber, ob ein weit verbreitetes Bild manipuliert wurde oder nicht, und die Suche nach verräterischen Details und Spuren der Veränderung“.
Derzeit ist ein bewusstes Ausstellen der Erzeugtheit solcher Bilder, ein Bewundern und Vergleichen von oder Rätseln über geglückte Prompts, jedenfalls noch an der Tagesordnung. Und tatsächlich war ja auch der „Balenciaga Pope“ nicht als bewusste Täuschung oder „Fake News“ in die Welt gesetzt worden, der Schöpfer Xavier ging eigenen Aussagen nach sogar davon aus, dass dies klar erkennbar sei (etwa durch den wirklich willkürlich erzeugten Starbucks-Becher in der Hand des Papstes). Der „Balenciaga Pope“ scheint gerade deswegen so „eingeschlagen“ zu sein, weil er so harmlos, mit keinerlei politischen oder journalistischen Botschaften verbunden scheint: „I just thought it was funny to see the Pope in a funny jacket”, ließ Xavier eben verlauten. Auf beiden Rezeptionsebenen – dem schmunzelnden Staunen über den extravaganten Modestil des Kirchenoberhaupts als auch im Zelebrieren der Midjourney-Imagination – geht es alleine um das Bildmotiv, vielleicht um dessen komische Inkongruenz (der Papst als fashion icon).
An dieser Stelle setze dann auch eine ganze Flut von Anschluss-Memes zum Papst an, die in den Tagen und Wochen nach dem „Balenciaga Pope“ über die Plattformen dieser Welt schwappten: „The Pope Casually Rocking the Club“, „Pope Francis at the Oscars“, „I give you the pope surfing in Bali“, „Pope getting ready for Mr Olympia“, „The Pope raising the roof in the vatican“, „A Pope, Priest and a Rabbi walk into a bar…“, „The pope does Disney“, „Demonic Pope“, „The Pope rolling a fat Joint with Snoop“, die Liste ließe sich unendlich fortsetzen… in all diesen Serien der Anschlusskommunikation, der „Bildreaktionsketten“ (Roland Meyer), war der Midjourney-Ursprung nun deutlich ausgewiesen, die Bilder überboten sich geradezu darin, unmöglichste Szenarios mit Papst Franziskus zu imaginieren und fotorealistisch vorstellig zu machen. Erneut schient hier keinerlei „Message“ zu befürchten und dies entspricht gewiss auch einer Meme-Tradition: ein bloßes Spiel mit Template und Variation, durch welches eine temporäre Gemeinschaft der Teilenden und „Mitspielenden“, vielleicht ein „Konnektiv“ im Sinne Bernhard Pörksens (2018, 89), hergestellt wird. Natürlich aber gibt es andere Formen von Memes, die deutlich politischer sind, nicht zuletzt auch im Umkreis von Trump-Fans (hier nur ein Verweis auf die Studie von Nowotny und Reidy 2022, 111–156). Die massenhafte Nutzung generativer Bildlichkeit im AfD-Umfeld wurde bereits erwähnt. Tatsächlich würde ich den „Balenciaga Pope“ auch gar nicht als erstes, breitenwirksames „Midjourney“-Meme veranschlagen, sondern bereits ein Ereignis einige paar Tage früher (am 20. März), als Midjourney-Nutzer*innen nach einem Vorbild des Users Eliot Higgins gemeinsam die Festnahme und Inhaftierung von Donlald Trump imaginierten und auf sehr konkrete Bildmotive brachten.
Ein kollektives politisches Ritual der gemeinschaftsstiftenden Bilderzeugung, über das sicherlich noch viel gesprochen werden wir – innerhalb von nur zwei Tagen wurden die Bilder über 5 Millionen mal gesehen. Dieses Ereignis bereits wurde als „Weckruf“ zur drohenden Gefahr von AI-Bildern diskutiert, etwa in der Washington Post (und die verschiedenen Umgangsformen unterschiedlicher Plattformen damit sind außerordentlich spannend): „The episode also makes evident the absence of corporate standards or government regulation addressing the use of AI to create and spread falsehoods“. Ich sehe die politische Brisanz all dieser Entwicklungen aber woanders, denn in all diesen Fällen kann eben keinesfalls davon gesprochen werden, dass der Wahrheitsanspruch der Bilder irrelevant in ihrer Rezeption und Zirkulation werden würden – eher im Gegenteil. Es gibt jedoch eine durchaus gefährliche Dimension ideologischer Bildbedeutungen, die weniger bis kaum im Zentrum der Debatten stand; und dies ist auch kein Zufall.
Das AI-Selfie als Meta-Bild
Unter den zahllosen, sich täglich vervielfältigenden AI-Memes im Subbreddit r/midjourney findet sich auch eine Serie namens „Time Period Selfies“ vom 19. März, die aus vielerlei Gründen besonders spannend im Zusammenhang mit AI-Bildlichkeit und Plattform-Logiken ist. In dieser Serie generieren User*innen Bildszenen aus unterschiedlichen historischen Epochen und Kulturräumen, von feudalen Samurai-Kriegern über Native American-Stämme bis zu spanischen Conquistadores oder Soldaten im Ersten Weltkrieg, die sich allesamt zu einem Gruppen-Selfie versammeln und dafür freundlich in die Kamera lächeln. Was dem Motiv eine gesteigerte Reflexivität verleiht: Bereits vor der Explosion AI-generierter Bilder waren Selfies ein medienästhetisch besonders spannendes Hybridformat zwischen Digitalfotografie und Digitalkommunikation, das also gar nicht außerhalb der Logiken sozialer Plattformen existieren kann, wie etwa Julia Eckel, Jens Ruchatz und Sabine Wirth gezeigt (2018) haben. Nishant Sha (2015, 87) brachte diesen Zusammenhang auf die schöne Formel: „[T]the selfie comes into being not merely by the act of being taken but because it is intended for circulation“. In diese Logik reiht sich die Midjourney-Serie „Time Period Selfies“ nun ein. Auch das hat nun zunächst nichts sonderlich Politisches, der Reiz liegt erneut in der thematischen Inkongruenz, dass hier historisch und kulturell diverse Personengruppen in anachronistisch-paradoxer Weiser über Digitalfotografie und Social Media zu verfügen scheinen. Zudem, das kann man vielleicht ganz subjektiv hinzufügen, ist der Detailreichtum der Midjourney V5-Kreationen erneut verblüffend und, nun ja, im Frühjahr 2023 zumindest unheimlich eindrucksvoll. Möchte man eine „Botschaft“ in die Bilder hineininterpretieren, so sicherlich eine recht wohlmeinend auf „interkulturelle Völkerverständigung“ abzielende Geste: Wir alle waren und sind doch Menschen, denn was ist er Mensch, wenn nicht jenes Tier, das Selfies anfertigt?
Dabei freilich geht etwas unter – und dies ist eine zutiefst ideologische Komponente der Motivserie. Eine Essayistin, die unter dem Namen „Jenka“ bzw. @babiejenks publiziert, hat dies kurz nach der Veröffentlichung der ersten Bildmotive, in einem beeindruckenden Text herausgearbeitet. Als US-amerikanische Einwanderin aus der früheren Sowjetunion wies sie darauf hin, dass das „Selfie-Lächeln“, erstens, keinesfalls eine kulturübergreifende Geste ist und in ihrer früheren Heimatkultur ganz fremdartig und bizarr anmute und daher, zweitens, ganz sicher auch nicht im feudalen Japan, bei afrikanischen Stammesvölkern oder altägyptischen Kriegern zu finden gewesen wäre. Nun behauptet dies natürlich auch keines der Bildmotive. Gerade im anachronistisch-paradoxen Schmunzeln liegen ja die Schauwerte. Jeder Täuschungseffekt liegt hier ganz fern. Liest man aber die Kommentare unter den Bildern in sozialen Netzwerken, so wird viel Begeisterung darüber ausgetauscht, dass Midjourney hier fantasiert (oder imaginiert), wie eine Zeitreise ausgesehen haben könnte, bei der Smartphone-Technologie durch die Epochen geschickt wird; selten jedoch kommt zum Ausdruck wie durch und durch antrainiert, europäisch oder amerikanisch und wohl auch weiß diese Geste eigentlich ist: ein ostentativ-breites Lächeln, erst recht in die Kamera! Gerade in der Serialität des Verbindenden – „seht, wir alle sind und waren Menschen!“ – stellt sich dabei doch ein unangemessener Universalismus her, so Jenkas keinesfalls unplausible Kritik. Mit anderen Worten: eine bestimmte Körpertechnik (entwaffnendes Lächeln), verbunden mit einer bestimmten Medienroutine (Selfies anfertigen und teilen) wird, in dieser Leseweise, in kulturimperialistischer oder zumindest hinterfragenswerterweise über die Weltgeschichte gestülpt. Selbst im Bewusstsein darüber, dass es sich hier selbstredend um eine Fiktion handelt, wird doch der eigentliche Kern der Imagination naturalisiert: Selfies hätten wir doch alle gemacht, wenn es uns jemand gezeigt hätte, und gelächelt worden wie vor der New Yorker Skyline wäre allemal! Dass die Bilder aussehen, wie sie eben aussehen, dass sie keine fremden oder abweichenden Gesten zeigen, ist freilich keine Überraschung. Die Serie wiederholt natürlich nur das Bildmotiv, dass sich unter dem Schlagwort und Prompt „Selfie“ eben finden lässt.
Was ist daraus nun zu schließen? Zunächst einmal spiegelt all dies natürlich nur einige Gemeinplätze der „AI-Debatten“ der letzten Monate. Dass sowohl die Trainingsdatensätze als auch die Bildproduktionen von DALL·E, Midjourney oder Stable Diffusion höchst problematische Vorurteile, Stereotypen und sexistische, rassistische und ableistische Vorstellungen von „Normalität“ reproduzieren, das wurde auch wieder und wieder nachgewiesen, etwa von Fabian Offert und Thao Phan (2022). So wie auch Chat-GPT häufig „halluziniert“ und sich Dinge (Fußnoten, Texte, historische Fakten und Ereignisse) ausdenkt, die es nicht gibt und nie gegeben hat, macht dies natürlich auch Midjourney; wenn wir nicht bereits wissen (oder zumindest prüfen können), welche Informationen „echt“ sind, können wir es Stand 2023 nicht mehr formal erkennen oder erraten. Der deutliche Unterschied, den man zumindest Stand jetzt auf rein praxeologischer Ebene (also Nutzungs- und Verwendungsweisen) zwischen Text- und Bildgeneratoren ausmachen kann, ist aber der, dass Midjourney ganz wesentlich auf solche Bilder zurückgreift und sie auch reproduziert, die zur Zirkulation in sozialen Netzwerken bzw. Plattformen angefertigt worden sind – da User*innen Midjourney-Bilder ganz wesentlich dafür herstellen, genau diese Eigenbewegung auch zu vollziehen. Deswegen, so ebenfalls Meyer, scheint sich auch die AI-Ästhetik aktuell langsam auf ein ganz bestimmtes, durch Deviant Art-Fanartworks geprägtes „fluffy glamour glow“ einzupendeln. Dies ist anders als bei Chat-GPT, Bing oder Bard, deren textuelle Erzeugnisse doch weit über „Tweets“ und „Posts“ hinausgehen; für deren Datenbanken etwa auch Wikipedia und Projekt Gutenberg äußerst wichtig sind; und die insgesamt wesentlich diffusere (und damit gegenwärtig auch bedrohlichere) Gattungsprofile und Anwendungsfälle umspannen: bekanntlich eben auch Hausarbeiten, juristische Gutachten, Maschinencodes, usw… Die „post-artifiziellen“ Bilderwelten generativer AIs hingegen sind, auf einer bereits technologisch-strukturellen Ebene und insbesondere auf Output-Seite für „spreadability“ hin optimiert, auf eine Wanderung durch Plattformen und Netzwerke. Wieder mit Meyer: „KI-Bildgenerierung [erscheint] als die perfekte Meme-Maschine (…). Die wild-forensische Spekulation über Spuren der Manipulation wie die memeifizierende Variation und Reinterpretation lassen sich also als zwei fast gegensätzliche Strategien verstehen, auf weit verbreitete Bilder zu reagieren: Die eine lädt an sich bedeutungslose, kontingente Details mit Bedeutung auf, indem sie sie als Spuren der Manipulation liest, die andere rekombiniert bereits mit Bedeutung besetzte Bildelemente und überschreibt sie mit neuen Bedeutungen“.
Selbst, wenn wir deswegen gerade nicht auf eine „post-faktische“, sondern nur „post-artifizielle“ Gesellschaft zusteuern, in der ein Bewusstsein um die prinzipielle Fiktionalität eines jeden Bildes im gleichen Maße eher zunimmt, wie sie nicht mehr unmittelbar ersichtlich ist – was zu wünschen oder zu hoffen wäre; selbst also, wenn wir nicht einmal darauf „hereinfallen“ oder auch nur missverstehen, was mit einem Bild mutmaßlich gesagt, behauptet, erfunden oder ausgedacht werden soll, so schreibt sich doch ein technologisches Unterbewusstes in mutmaßlich jedes zukünftige Bild mit ein, das gerade nicht im Fokus steht und als solches auch nicht hinterfragt oder „forensisch analysiert“ wird. Etwa, welcher Umgang mit Smartphone-Technologie „natürlich“ wäre, oder was an Modedesign eigentlich „tribal“ oder „japanisch“ ist! Politische Komponenten der Plattform-Kommunikation sind dabei also so in Trainingsdaten und Bildoutputs mit „eingebacken“, dass sie den Teilenden nicht einmal bewusst sein mögen; selbst und vielleicht gerade, wenn wir es nicht mit „Deep Fakes“ oder politischen Memes zu tun haben, die uns in der Zukunft ebenfalls genug zu tun geben werden.
Ausführlichere Gedanken zu Selfies und Memes von Lukas R.A. Wilde finden sich im soeben erschienenen Aufsatz „Live aus dem Hotspot der Interpretationslust: Das politische Selfie im Spannungsfeld verteilter Handlungsmächte und autorialer Konstrukte“,[1] in: Bildmedien: Materialität – Semiotik – Ästhetik, hg. von Frauke Berndt und Jan-Noël Thon, Berlin: De Gruyter, 2022, S. 201-224.
In Kürze erscheint eine von ihm, Marcel Lemmes und Klaus Sachs-Hombach herausgegebene Sonderausgabe zu generativer Bildlichkeit unter dem Titel Generative Imagery: Towards a ‘New Paradigm’ of Machine Learning-Based Image Production, Sonderausgabe von IMAGE: Zeitschrift für interdisziplinäre Bildwissenschaft 37, 2023.
Weitere angeführte Texte:
Bajohr, Hannes: „Artifizielle und postartifizielle Texte: Über die Auswirkungen Künstlicher Intelligenz auf die Erwartungen an literarisches und nichtliterarisches Schreiben“, in: Sprache im technischen Zeitalter 61: 245, 2023, S. 37–61.
Eckel, Julia, Jens Ruchatz und Sabine Wirth: „The Selfie as Image (and) Practice: Approaching Digital Self-Photography“, in: Exploring the Selfie: Historical, Theoretical, and Analytical Approaches to Digital Self-Photography, hg von Julia Eckel, Jens Ruchatz und Sabine Wirth, Cham: Palgrave Macmillan, 2018, S. 1–23.
Nowotny, Joanna und Julian Reid: Memes: Formen und Folgen eines Internetphänomens, Bielefeld: Transcript, 2022.
Offert, Fabian und Thao Phan: „A Sign That Spells: DALL·E 2, Invisual Images and The Racial Politics of Feature Space“, in: arXiv:2211.06323, 26. Oktober 2022, https://arxiv.org/abs/2211.06323.
Pörksen, Bernhard: Die große Gereiztheit: Wege aus der kollektiven Erregung, Bonn: Bundeszentrale für politische Bildung, 2018.
Sha, Nishant: „The Selfie and the Slut: Bodies, Technology, and Public Shame“, in: The Economic Political Weekly 17, 2015, S. 86–93.
Wer ist Lukas R.A. Wilde?
Dr. Lukas R.A. Wilde ist ein Medienwissenschaftler und ehemaliger Mitarbeiter am Institut für Medienwissenschaft der Universität Tübingen. Seit August 2022 ist er Associate Professor am Department of Art and Media Studies der Norwegian University of Science and Technology (NTNU) in Trondheim, Norwegen. Seine 2018 veröffentlichte Dissertation mit dem Titel Im Reich der Figuren (Halem) wurde mit zwei renommierten Wissenschaftspreisen ausgezeichnet. Am 13./14. Februar 2023 veranstaltete er gemeinsam mit Klaus Sachs-Hombach an der Universität Tübingen die erste internationale Konferenz zum Thema generativer AI-Bildlichkeit. Eine Online-Publikation erscheint in Kürze als Generative Imagery: Towards a ‘New Paradigm’ of Machine Learning-Based Image Production, Sonderausgabe von IMAGE: Zeitschrift für interdisziplinäre Bildwissenschaft 37, 2023.