Generative KI – REAL VIRTUALITY

Ich habe in der ersten Jahreshälfte die ersten vier Bände von Martha Wells’ Murderbot-Buchreihe gelesen. Angeregt natürlich durch die Serienadaption, die auf Apple TV+ läuft, die ich aber noch nicht gesehen habe. Die Bücher sind so gut wie ihr Ruf, insbesondere das erste, All Systems Red. Murderbot ist eine neue und gut eingefangene Erzählstimme einer introvertierten Mensch-Maschine, die nach Persönlichkeit jenseits von Pinocchio-Klischees sucht, wie im Laufe der Reihe auch immer klarer wird.

Ein in der Kritik eher unterbelichteten Aspekt, den ich faszinierend finde, ist die Art und Weise, wie die Handlung der Murderbot-Bücher eigentlich pausenlos in zwei Sphären stattfindet. Murderbot hat einen Körper, mit dem sich die SecUnit durch die Welt bewegt und der Dinge tut wie kämpfen, gucken oder sprechen. Die meiste Action der komplexen Situationen, in die Murderbot sich immer wieder hineinmanövriert, findet aber virtuell statt. In einem Podcast habe ich gehört, dass Autorin Martha Wells von Ann Leckies Roman Ancillary Justice inspiriert wurde, den ich ebenfalls vor einigen Jahren gelesen habe und dessen Hauptfigur eine virtuelle Intelligenz ist, die anfangs sowohl ein Raumschiff als auch mehrere Bot-Körper besitzt.

Murderbot hackt sich pausenlos in Sicherheitssysteme und Datenstreams, beobachtet die Welt durch Kameras und Drohnen, kommuniziert per Text und mit Dateien, sowohl mit Menschen als auch mit anderen Maschinen. Er schreibt im Hintergrund Code, den er zu geeigneten Zeiten deployt und bevorzugt in der Regel sogar die virtuelle Interaktion gegenüber dem Meatspace. Die virtuellen Handlungen benötigen allerdings keinerlei räumliche Repräsentationen, wie sie etwa im Cyberpunk üblich sind. Murderbot muss sich nicht „in die Matrix“ begeben und von Knoten zu Knoten reisen, um mit Daten zu interagieren. Die SecUnit macht es einfach, während sie parallel andere Dinge in der physischen Welt tut. Dies entspricht ja längst unserer Realität, wenn wir Textnachrichten schreiben, während wir durch die Stadt laufen, beim Putzen einen Podcast hören, oder die Kollegen in der Zoom-Konferenz anlächeln, während wir parallel eine Slack-Nachricht beantworten.

Zugegeben: In manchen Bänden nimmt die schiere Menge an Datenmanipulation, die den Vorteil hat, das sie nicht plausibel erklärt werden muss (Murderbot „hackt“ einfach drauflos) etwas überhand. Sie erlaubt Murderbot, ständig überall seine Spuren zu verwischen, Systeme nach Belieben zu verwirren und zu deaktivieren und so die Regeln der Welt, in der sich die SecUnit bewegt, so zu verändern, wie es am besten zum Plot passt. Am besten funktioniert die „Second Screen“-Action in relativ isolierten Settings, etwa auf einer verlassenen Raumstation in Band 3.

***

Aktuell lese ich Sunrise on the Reaping, den fünften Band und das zweite Prequel der Hunger Games/Tribute von Panem-Reihe von Suzanne Collins. Collins’ Young-Adult-Dystopien waren von Anfang an immer auch große Kommentare auf die Medienwelt, besonders auf Reality TV und Propaganda, und auch wenn Collins darin nie sehr subtil war, fand ich das immer gut.

Sunrise on the Reaping ist 17 Jahre nach dem ursprünglichen Roman The Hunger Games erschienen, spielt aber 24 Jahre vor dessen Zeit. Die gesamte Welt von Panem liegt so weit in der Zukunft, dass diese Verschiebungen kaum einen Unterschied machen sollten. Trotzdem scheint Collins mitten im Buch das Bedürfnis zu haben, die Tatsache anzusprechen, dass die reale technische Entwicklung seit ihrer ersten Buchtrilogie ein paar Sprünge gemacht hat. In einer Szene, in der die Hauptcharaktere kleine Propaganda-Videos drehen, heißt es plötzlich:

He sighs when he [der Kameramann/Regisseur Plutarch Heavensbee] mentions the tools that were abolished and incapacitated in the past, ones deemed fated to destroy humanity because of their ability to replicate any scenario using any person. “And in mere seconds!” He snaps his fingers to emphasize their speed. “I guess it was the right thing to do, given our natures. We almost wiped ourselves out even without them, so you can imagine. But oh, the possibilities!”

Soso. Auch in Panem gab es also irgendwann mal generative KI. Die wurde aber wieder abgeschafft. Weird retcon, but ok.

***

Es sind wieder mal Superheldenfilme im Kino, James Gunns Superman und The Fantastic Four: First Steps. Ich habe nicht das geringste bisschen Lust, einen dieser Filme zu sehen, auch nicht den viel diskutierten Superman. Ich bin dieses Genres nach fast 30 Jahren Dauerbombardement etwa genauso müde, wie ich einst von ihm fasziniert war (wie dieses Blog beweist).

Was ich dabei eigentlich am traurigsten finde: Keiner der Filme, die insbesondere seit dem Start des MCU hoch- und runtergehypt wurden, wird jemals wieder irgendeine Relevanz haben, so wie wir etwa dieses Jahr 50 Jahre Jaws feiern. Die ganze Franchise-Brühe, die ja durchaus eine erzählerische Innovation ins Kino gebracht hat, ist jetzt schon und wird in Zukunft noch viel mehr höchstens noch generische Zeitgeisttapete sein – genau wie es die Mainstream-Erfolge rund um Jaws aus den 1970ern (etwa The Towering Inferno) heute sind.

Oder gibt es irgendeinen Superhelden-Film, der wirklich noch in zwanzig bis dreißig Jahren als herausragender Film gelten könnte? The Dark Knight natürlich. Spider-Man 2 vielleicht. Aber ich würde mein Geld weder auf The Avengers noch auf Guardians of the Galaxy setzen, obwohl das vielleicht die besten MCU-Filme sind. Schade eigentlich.

Sollte ich diese Einträge zu mehreren Themen lieber in einzelne Blogposts gießen?

Foto von Olivier Miche auf Unsplash

Im April wollte ich wissen, was dran ist am Hype. Ich hatte mit Chat-GPT rumgespielt, aber mich noch nicht so richtig getraut, den Bot im Arbeitsalltag einzusetzen (mit Ausnahme eines Brainstormings hier und da). Aber das, was Chat-GPT kann – Texte synthetisieren – kann ich ja selbst auch, also war es zwar praktisch, hatte aber wenig Wow-Faktor. Deshalb wollte ich dringend auch ausprobieren wie das andere große Generative KI-Ding funktioniert, und kaufte mir Guthaben beim Bildgenerator Midjourney.

Midjourney, da fühle ich mich Michael Marshall Smith sehr verbunden (der ohnehin mit die besten Texte zu diesem Thema aus Kreativensicht schreibt, nachdenklich und abwägend ohne Businessfokus), ist die ideale Technologie für Leute wie mich. Die Engine generiert Bilder aus Textprompts, sie schafft also etwas, was ich nie selbst könnte (beeindruckende Bilder), aus etwas, in dem ich einigermaßen gut bin (die richtigen Worte finden).

Midjourney Schritt für Schritt

Wer noch nie mit Midjourney gearbeitet hat: so läuft es ab. Man meldet sich auf einem Discordserver an, kauft ein gewisses Rechenguthaben (derzeit kosten rund 200 “Prompts” etwa 10 Euro im Monat) und dann kann man entweder in öffentlichen Channels oder in Zwiesprache mit dem Midjourney-Bot mit dem Generieren anfangen. Mit dem Befehl “/imagine” beschreibt man dem Computer, welches Bild man gerne generieren möchte. Nach etwa einer Minute bekommt man vier verschiedene Motive zur Auswahl.

Mit diesen vier Bildern kann man nun weiter arbeiten und hat drei Möglichkeiten: 1) Alles verwerfen und vier neue Bilder generieren. 2) Von einzelnen Bildern Varianten generieren, bei denen Bildkomposition und Stimmung erhalten bleiben aber Details sich ändern. 3) Einzelne Bilder direkt großrechnen (“upscale”), so dass man sie hochaufgelöst herunterladen kann.

Prompt up the Volume

Midjourney-Prompts, das habe ich durch die Beschäftigung mit den Werken anderer gelernt, können viele verschiedene Formen haben, aber die meisten ähneln inzwischen ungefähr dieser Formel:

[Stil/Medium] eines [Motiv], [weitere Deskriptoren zur Anmutung]

Das Titelbild dieses Beitrags, zum Beispiel, hatte folgenden Prompt:

Candid snapshot of a bald man in his 30s, short cropped beard, and a robot working together, smiling, 1990s sitcom vibes

Man sieht dabei schon, dass die KI nicht alle Wörter gleich behandelt. Die 1990s sitcom vibes hat es sehr gut hinbekommen (vor allem am Pullover zu erkennen) und die Figur hat tatsächlich eine Glatze und einen kurz geschnittenen Bart (wie ich, ich finde es höchst amüsant, diese Pseudo-Avatare von mir in den Bildern auftauchen zu lassen). Aber das Bild ist kein “Candid Snapshot”, es wirkt sehr posiert, und der Mann und der Roboter arbeiten auch nicht wirklich zusammen. Es sieht eher aus, als wäre der Mann ein Bastler à la Nummer 5 lebt.

Und das ist das Besondere.

Katzen und Laser

Midjourney kann Worte in Bilder übersetzen. Das heißt aber noch lange nicht, dass ich mit Hilfe von Midjourney jedes Bild, die ich vor meinem geistigen Auge sehe und beschreiben kann, generieren könnte. Wann immer ich ein genaues Motiv vor Augen hatte und versucht habe, es in Midjourney zu erschaffen, musste ich irgendwann aufgeben.

Ein simples Beispiel: Mein Blog- und Podcast-Kollege Sascha hatte sich gewünscht, dass ich ihm sein Blog-Keyvisual, eine Katze, die Laser aus den Augen schießt, im Ghibli-Stil generiere. Aber trotz einem Dutzend Prompt-Varianten – das Bild wollte einfach nicht entstehen. Ob wegen der Gewaltfilter von Midjourney oder weil einfach nicht genug Lernmaterial dazu vorhanden war, kann ich nicht sagen. Aber Tatsache war: Midjourney konnte mir viele viele Bilder mit Katzen und Lasern bauen, manche davon erinnerten sogar an Studio Ghibli, aber in keinem der Bilder kamen die Laserstrahlen aus den Augen der Katze.

Klar, die Aufgabe von “Prompt Engineers” wird es in Zukunft sein, so lange an den Prompts und Einstellungen rumzudoktern, bis es eben doch passt. Aber für meine begrenzte Erfahrung galt bisher eher: Midjourney erschafft fast nie die Bilder, die ich erwarte oder mir gar wünsche. Aber das heißt nicht, dass die Bilder nicht interessant sind.

Insofern, wie auch schon neulich geschrieben, halte ich es für viel fruchtbarer, die Arbeit mit Midjourney als eine Zusammenarbeit zu begreifen. Die KI ist nicht meine In-Out-Maschine, die das exakte grafische Äquivalent zu dem auswirft, was ich vorher textlich eingeworfen habe. Sie ist vielmehr ein Partner in einem künstlerischen Prozess. Je mehr ich bereit bin, mich von ihrem X-Faktor überraschen zu lassen, desto produktiver wird die Zusammenarbeit.

(Zu diesem hehren Ziel gehört natürlich eine lange Reihe von Fußnoten. Midjourney ist auch eine Klischeemaschine, von der selten zu erwarten ist, dass sie etwas wirklich neuartig Scheinendes erschafft. Sie hat Ismus-Biases ohne Ende, von der ethischen Debatte über die unentgeltliche Nutzung von Werken anderer zu Trainingszwecken ganz zu schweigen.)

Insofern finde ich auch das unter Designer:innen herumgereichte Meme nach dem Motto “Die KI erwartet, dass der Kunde genau beschreibt, was er will. Wir sind sicher” (selbst ürigens eine Neuauflage eines alten Programmierer:innen-Witzes) zwar witzig, aber auch ein wenig am Ziel vorbei. Gute Zusammenarbeit mit Kreativen jeder Art, egal ob Designer:innen, Illustrator:innen oder Texter:innen, hat noch nie darin bestanden, dass die Auftraggeberin exakt das Ergebnis beschreibt und die Auftragnehmerin diese Beschreibung umsetzt. Genau wie die Zusammenarbeit mit der KI besteht auch jede andere fruchtbare kreative Zusammenarbeit, selbst solche, in der eine Partei die andere bezahlt, aus einem produktiven Geben, Nehmen und Iterieren. Der Unterschied dürfte viel eher sein: Die KI ist (bisher) nicht davon überzeugt, dass ihre Auftraggeberin keine Ahnung hat und sie viel besser weiß, was gut für den Auftrag wäre.

Ich habe meine Prompts entsprechend angepasst. Statt vom Ergebnis zu denken und dann nach den richtigen Worte dazu zu suchen, fange ich gedanklich lieber am Anfang an. Ich denke mir ein Motiv aus, eventuell noch ein paar Stilmerkmale dazu, aber den Rest überlasse ich dann erstmal der KI. Manchmal lasse ich sogar bewusst Deskriptoren weg, um mich stärker überraschen zu lassen. Ein Beispiel wäre ein Bild, das ich vor kurzem zur Bewerbung meiner jüngsten Podcast-Folge generiert habe: “Photograph of a Filmmaker trying to take care of the environment”

Auf dieser Weise kann ich meine Stärken einbringen, beispielsweise das Kombinieren von verschiedenen Ideen. Und die KI bringt ihre Stärken ein: das stochastische Kombinieren der Elemente im Prompt zu einem neuen, überraschenden Werk, das weder nur von mir noch von Midjourney stammt.

Sondern von uns zusammen.

Tag: Generative KI

Second Screen Murderbot, Panems Historie mit KI, Superhelden im Rückspiegel (Unsortierte Gedanken 3)

Der X-Faktor: Über das Arbeiten mit Midjourney

Midjourney Schritt für Schritt

Prompt up the Volume

Katzen und Laser