Im April wollte ich wissen, was dran ist am Hype. Ich hatte mit Chat-GPT rumgespielt, aber mich noch nicht so richtig getraut, den Bot im Arbeitsalltag einzusetzen (mit Ausnahme eines Brainstormings hier und da). Aber das, was Chat-GPT kann – Texte synthetisieren – kann ich ja selbst auch, also war es zwar praktisch, hatte aber wenig Wow-Faktor. Deshalb wollte ich dringend auch ausprobieren wie das andere große Generative KI-Ding funktioniert, und kaufte mir Guthaben beim Bildgenerator Midjourney.
Midjourney, da fühle ich mich Michael Marshall Smith sehr verbunden (der ohnehin mit die besten Texte zu diesem Thema aus Kreativensicht schreibt, nachdenklich und abwägend ohne Businessfokus), ist die ideale Technologie für Leute wie mich. Die Engine generiert Bilder aus Textprompts, sie schafft also etwas, was ich nie selbst könnte (beeindruckende Bilder), aus etwas, in dem ich einigermaßen gut bin (die richtigen Worte finden).
Midjourney Schritt für Schritt
Wer noch nie mit Midjourney gearbeitet hat: so läuft es ab. Man meldet sich auf einem Discordserver an, kauft ein gewisses Rechenguthaben (derzeit kosten rund 200 “Prompts” etwa 10 Euro im Monat) und dann kann man entweder in öffentlichen Channels oder in Zwiesprache mit dem Midjourney-Bot mit dem Generieren anfangen. Mit dem Befehl “/imagine” beschreibt man dem Computer, welches Bild man gerne generieren möchte. Nach etwa einer Minute bekommt man vier verschiedene Motive zur Auswahl.
Mit diesen vier Bildern kann man nun weiter arbeiten und hat drei Möglichkeiten: 1) Alles verwerfen und vier neue Bilder generieren. 2) Von einzelnen Bildern Varianten generieren, bei denen Bildkomposition und Stimmung erhalten bleiben aber Details sich ändern. 3) Einzelne Bilder direkt großrechnen (“upscale”), so dass man sie hochaufgelöst herunterladen kann.
Prompt up the Volume
Midjourney-Prompts, das habe ich durch die Beschäftigung mit den Werken anderer gelernt, können viele verschiedene Formen haben, aber die meisten ähneln inzwischen ungefähr dieser Formel:
[Stil/Medium] eines [Motiv], [weitere Deskriptoren zur Anmutung]
Das Titelbild dieses Beitrags, zum Beispiel, hatte folgenden Prompt:
Candid snapshot of a bald man in his 30s, short cropped beard, and a robot working together, smiling, 1990s sitcom vibes
Man sieht dabei schon, dass die KI nicht alle Wörter gleich behandelt. Die 1990s sitcom vibes hat es sehr gut hinbekommen (vor allem am Pullover zu erkennen) und die Figur hat tatsächlich eine Glatze und einen kurz geschnittenen Bart (wie ich, ich finde es höchst amüsant, diese Pseudo-Avatare von mir in den Bildern auftauchen zu lassen). Aber das Bild ist kein “Candid Snapshot”, es wirkt sehr posiert, und der Mann und der Roboter arbeiten auch nicht wirklich zusammen. Es sieht eher aus, als wäre der Mann ein Bastler à la Nummer 5 lebt.
Und das ist das Besondere.
Katzen und Laser
Midjourney kann Worte in Bilder übersetzen. Das heißt aber noch lange nicht, dass ich mit Hilfe von Midjourney jedes Bild, die ich vor meinem geistigen Auge sehe und beschreiben kann, generieren könnte. Wann immer ich ein genaues Motiv vor Augen hatte und versucht habe, es in Midjourney zu erschaffen, musste ich irgendwann aufgeben.
Ein simples Beispiel: Mein Blog- und Podcast-Kollege Sascha hatte sich gewünscht, dass ich ihm sein Blog-Keyvisual, eine Katze, die Laser aus den Augen schießt, im Ghibli-Stil generiere. Aber trotz einem Dutzend Prompt-Varianten – das Bild wollte einfach nicht entstehen. Ob wegen der Gewaltfilter von Midjourney oder weil einfach nicht genug Lernmaterial dazu vorhanden war, kann ich nicht sagen. Aber Tatsache war: Midjourney konnte mir viele viele Bilder mit Katzen und Lasern bauen, manche davon erinnerten sogar an Studio Ghibli, aber in keinem der Bilder kamen die Laserstrahlen aus den Augen der Katze.
Klar, die Aufgabe von “Prompt Engineers” wird es in Zukunft sein, so lange an den Prompts und Einstellungen rumzudoktern, bis es eben doch passt. Aber für meine begrenzte Erfahrung galt bisher eher: Midjourney erschafft fast nie die Bilder, die ich erwarte oder mir gar wünsche. Aber das heißt nicht, dass die Bilder nicht interessant sind.
Insofern, wie auch schon neulich geschrieben, halte ich es für viel fruchtbarer, die Arbeit mit Midjourney als eine Zusammenarbeit zu begreifen. Die KI ist nicht meine In-Out-Maschine, die das exakte grafische Äquivalent zu dem auswirft, was ich vorher textlich eingeworfen habe. Sie ist vielmehr ein Partner in einem künstlerischen Prozess. Je mehr ich bereit bin, mich von ihrem X-Faktor überraschen zu lassen, desto produktiver wird die Zusammenarbeit.
(Zu diesem hehren Ziel gehört natürlich eine lange Reihe von Fußnoten. Midjourney ist auch eine Klischeemaschine, von der selten zu erwarten ist, dass sie etwas wirklich neuartig Scheinendes erschafft. Sie hat Ismus-Biases ohne Ende, von der ethischen Debatte über die unentgeltliche Nutzung von Werken anderer zu Trainingszwecken ganz zu schweigen.)
Insofern finde ich auch das unter Designer:innen herumgereichte Meme nach dem Motto “Die KI erwartet, dass der Kunde genau beschreibt, was er will. Wir sind sicher” (selbst ürigens eine Neuauflage eines alten Programmierer:innen-Witzes) zwar witzig, aber auch ein wenig am Ziel vorbei. Gute Zusammenarbeit mit Kreativen jeder Art, egal ob Designer:innen, Illustrator:innen oder Texter:innen, hat noch nie darin bestanden, dass die Auftraggeberin exakt das Ergebnis beschreibt und die Auftragnehmerin diese Beschreibung umsetzt. Genau wie die Zusammenarbeit mit der KI besteht auch jede andere fruchtbare kreative Zusammenarbeit, selbst solche, in der eine Partei die andere bezahlt, aus einem produktiven Geben, Nehmen und Iterieren. Der Unterschied dürfte viel eher sein: Die KI ist (bisher) nicht davon überzeugt, dass ihre Auftraggeberin keine Ahnung hat und sie viel besser weiß, was gut für den Auftrag wäre.
Ich habe meine Prompts entsprechend angepasst. Statt vom Ergebnis zu denken und dann nach den richtigen Worte dazu zu suchen, fange ich gedanklich lieber am Anfang an. Ich denke mir ein Motiv aus, eventuell noch ein paar Stilmerkmale dazu, aber den Rest überlasse ich dann erstmal der KI. Manchmal lasse ich sogar bewusst Deskriptoren weg, um mich stärker überraschen zu lassen. Ein Beispiel wäre ein Bild, das ich vor kurzem zur Bewerbung meiner jüngsten Podcast-Folge generiert habe: “Photograph of a Filmmaker trying to take care of the environment”
Auf dieser Weise kann ich meine Stärken einbringen, beispielsweise das Kombinieren von verschiedenen Ideen. Und die KI bringt ihre Stärken ein: das stochastische Kombinieren der Elemente im Prompt zu einem neuen, überraschenden Werk, das weder nur von mir noch von Midjourney stammt.
Sondern von uns zusammen.