Der X-Faktor: Über das Arbeiten mit Midjourney

Im April wollte ich wissen, was dran ist am Hype. Ich hatte mit Chat-GPT rumgespielt, aber mich noch nicht so richtig getraut, den Bot im Arbeitsalltag einzusetzen (mit Ausnahme eines Brainstormings hier und da). Aber das, was Chat-GPT kann – Texte synthetisieren – kann ich ja selbst auch, also war es zwar praktisch, hatte aber wenig Wow-Faktor. Deshalb wollte ich dringend auch ausprobieren wie das andere große Generative KI-Ding funktioniert, und kaufte mir Guthaben beim Bildgenerator Midjourney.

Midjourney, da fühle ich mich Michael Marshall Smith sehr verbunden (der ohnehin mit die besten Texte zu diesem Thema aus Kreativensicht schreibt, nachdenklich und abwägend ohne Businessfokus), ist die ideale Technologie für Leute wie mich. Die Engine generiert Bilder aus Textprompts, sie schafft also etwas, was ich nie selbst könnte (beeindruckende Bilder), aus etwas, in dem ich einigermaßen gut bin (die richtigen Worte finden).

Midjourney Schritt für Schritt

Wer noch nie mit Midjourney gearbeitet hat: so läuft es ab. Man meldet sich auf einem Discordserver an, kauft ein gewisses Rechenguthaben (derzeit kosten rund 200 “Prompts” etwa 10 Euro im Monat) und dann kann man entweder in öffentlichen Channels oder in Zwiesprache mit dem Midjourney-Bot mit dem Generieren anfangen. Mit dem Befehl “/imagine” beschreibt man dem Computer, welches Bild man gerne generieren möchte. Nach etwa einer Minute bekommt man vier verschiedene Motive zur Auswahl.

Mit diesen vier Bildern kann man nun weiter arbeiten und hat drei Möglichkeiten: 1) Alles verwerfen und vier neue Bilder generieren. 2) Von einzelnen Bildern Varianten generieren, bei denen Bildkomposition und Stimmung erhalten bleiben aber Details sich ändern. 3) Einzelne Bilder direkt großrechnen (“upscale”), so dass man sie hochaufgelöst herunterladen kann.

Prompt up the Volume

Midjourney-Prompts, das habe ich durch die Beschäftigung mit den Werken anderer gelernt, können viele verschiedene Formen haben, aber die meisten ähneln inzwischen ungefähr dieser Formel:

[Stil/Medium] eines [Motiv], [weitere Deskriptoren zur Anmutung]

Das Titelbild dieses Beitrags, zum Beispiel, hatte folgenden Prompt:

Candid snapshot of a bald man in his 30s, short cropped beard, and a robot working together, smiling, 1990s sitcom vibes

Man sieht dabei schon, dass die KI nicht alle Wörter gleich behandelt. Die 1990s sitcom vibes hat es sehr gut hinbekommen (vor allem am Pullover zu erkennen) und die Figur hat tatsächlich eine Glatze und einen kurz geschnittenen Bart (wie ich, ich finde es höchst amüsant, diese Pseudo-Avatare von mir in den Bildern auftauchen zu lassen). Aber das Bild ist kein “Candid Snapshot”, es wirkt sehr posiert, und der Mann und der Roboter arbeiten auch nicht wirklich zusammen. Es sieht eher aus, als wäre der Mann ein Bastler à la Nummer 5 lebt.

Und das ist das Besondere.

Katzen und Laser

Midjourney kann Worte in Bilder übersetzen. Das heißt aber noch lange nicht, dass ich mit Hilfe von Midjourney jedes Bild, die ich vor meinem geistigen Auge sehe und beschreiben kann, generieren könnte. Wann immer ich ein genaues Motiv vor Augen hatte und versucht habe, es in Midjourney zu erschaffen, musste ich irgendwann aufgeben.

Ein simples Beispiel: Mein Blog- und Podcast-Kollege Sascha hatte sich gewünscht, dass ich ihm sein Blog-Keyvisual, eine Katze, die Laser aus den Augen schießt, im Ghibli-Stil generiere. Aber trotz einem Dutzend Prompt-Varianten – das Bild wollte einfach nicht entstehen. Ob wegen der Gewaltfilter von Midjourney oder weil einfach nicht genug Lernmaterial dazu vorhanden war, kann ich nicht sagen. Aber Tatsache war: Midjourney konnte mir viele viele Bilder mit Katzen und Lasern bauen, manche davon erinnerten sogar an Studio Ghibli, aber in keinem der Bilder kamen die Laserstrahlen aus den Augen der Katze.

Klar, die Aufgabe von “Prompt Engineers” wird es in Zukunft sein, so lange an den Prompts und Einstellungen rumzudoktern, bis es eben doch passt. Aber für meine begrenzte Erfahrung galt bisher eher: Midjourney erschafft fast nie die Bilder, die ich erwarte oder mir gar wünsche. Aber das heißt nicht, dass die Bilder nicht interessant sind.

Insofern, wie auch schon neulich geschrieben, halte ich es für viel fruchtbarer, die Arbeit mit Midjourney als eine Zusammenarbeit zu begreifen. Die KI ist nicht meine In-Out-Maschine, die das exakte grafische Äquivalent zu dem auswirft, was ich vorher textlich eingeworfen habe. Sie ist vielmehr ein Partner in einem künstlerischen Prozess. Je mehr ich bereit bin, mich von ihrem X-Faktor überraschen zu lassen, desto produktiver wird die Zusammenarbeit.

(Zu diesem hehren Ziel gehört natürlich eine lange Reihe von Fußnoten. Midjourney ist auch eine Klischeemaschine, von der selten zu erwarten ist, dass sie etwas wirklich neuartig Scheinendes erschafft. Sie hat Ismus-Biases ohne Ende, von der ethischen Debatte über die unentgeltliche Nutzung von Werken anderer zu Trainingszwecken ganz zu schweigen.)

Insofern finde ich auch das unter Designer:innen herumgereichte Meme nach dem Motto “Die KI erwartet, dass der Kunde genau beschreibt, was er will. Wir sind sicher” (selbst ürigens eine Neuauflage eines alten Programmierer:innen-Witzes) zwar witzig, aber auch ein wenig am Ziel vorbei. Gute Zusammenarbeit mit Kreativen jeder Art, egal ob Designer:innen, Illustrator:innen oder Texter:innen, hat noch nie darin bestanden, dass die Auftraggeberin exakt das Ergebnis beschreibt und die Auftragnehmerin diese Beschreibung umsetzt. Genau wie die Zusammenarbeit mit der KI besteht auch jede andere fruchtbare kreative Zusammenarbeit, selbst solche, in der eine Partei die andere bezahlt, aus einem produktiven Geben, Nehmen und Iterieren. Der Unterschied dürfte viel eher sein: Die KI ist (bisher) nicht davon überzeugt, dass ihre Auftraggeberin keine Ahnung hat und sie viel besser weiß, was gut für den Auftrag wäre.

Ich habe meine Prompts entsprechend angepasst. Statt vom Ergebnis zu denken und dann nach den richtigen Worte dazu zu suchen, fange ich gedanklich lieber am Anfang an. Ich denke mir ein Motiv aus, eventuell noch ein paar Stilmerkmale dazu, aber den Rest überlasse ich dann erstmal der KI. Manchmal lasse ich sogar bewusst Deskriptoren weg, um mich stärker überraschen zu lassen. Ein Beispiel wäre ein Bild, das ich vor kurzem zur Bewerbung meiner jüngsten Podcast-Folge generiert habe: “Photograph of a Filmmaker trying to take care of the environment”

Alexander Matzkeit/Midjourney

Auf dieser Weise kann ich meine Stärken einbringen, beispielsweise das Kombinieren von verschiedenen Ideen. Und die KI bringt ihre Stärken ein: das stochastische Kombinieren der Elemente im Prompt zu einem neuen, überraschenden Werk, das weder nur von mir noch von Midjourney stammt.

Sondern von uns zusammen.

Max-Jacob Ost über den Prozess hinter “11 Leben”, Sportjournalismus und seine Zukunftspläne bei Astro TV

Manchmal muss es einfach Audio sein. Zum Beispiel wenn man einen anderen Podcaster interviewt. Mit Max-Jacob Ost, dem Kopf hinter 11 Leben wollte ich schon ganz lange sprechen. Denn ich wollte schon lange wissen, wie es hinter den Kulissen eines Podcasts zugeht, den ich diverse Male über den grünen Klee gelobt habe – und den ich bis heute für einen der besten deutschen Podcasts der letzten Jahre halte.

In unserem einstündigen Gespräch erzählt Max nicht nur aus seiner Biografie und was er bei den einzelnen Stationen gelernt hat, sondern nimmt auch auseinander, wie 11 Leben genau entstand. Er zählt auf, welche Podcasts ihn inspiriert haben, was er sich abgeschaut hat und diskutiert mit mir darüber, wie gut es ist, dass er selbst so viel in 11 Leben vorkommt und wieviel Persönlichkeit ein journalistischer Podcast braucht. Außerdem enthüllt er am Ende exklusiv seine Karrierepläne, mit denen er endlich den Sprung von Audio ins Fernsehen schaffen will.

Und weil ich im Podcast-Intro total vergesse, es zu erwähnen. Max hat aus 11 Leben inzwischen auch ein Buch gemacht, das bestimmt auch gut ist. Es heißt Aus Liebe zum Spiel.

(Bild: “The 11 Lives of Uli Hoeneß” / Alexander Matzkeit & Midjourney)