Was tun mit KI?

Diesen Text trage ich schon seit Monaten mit mir herum, aber irgendwie habe ich es nie hinbekommen, mich einfach mal hinzusetzen und ihn zu schreiben. Da das Thema aber gerade diese Woche wieder einmal sehr deutlich an die Oberfläche geblubbert ist, muss es jetzt sein. Es geht darum, wie ich mich zu Generativer KI verhalte. Wie immer geschrieben in dem Verständnis, dass auch ein subjektives Urteil einen Wert im allgemeinen Diskurs haben kann.

Ich stehe in dieser ganzen Angelegenheit in einem gewissen Zwiespalt. Auf der einen Seite hat mich generative KI sofort begeistert. Sie zum ersten Mal zu nutzen enthielt genau das Versprechen von Futurität, das sich geil anfühlte. Ich habe 2023 sogar spekuliert, dass sie uns aus dem Gefühl der Hyperstasis losrütteln könnte (bisher nicht passiert). Nach einem guten halben Jahr Nutzung fühlte es sich sogar im Mai 2023 noch immer so an, als erlaube Generative KI die Zusammenarbeit mit einem “Fremden Anderen”, das einen auf Pfade führt, die man alleine nie gefunden hätte.

Damals und heute

Das alles war natürlich noch recht früh im Lebens- bzw. Produktzyklus der Technologie. Vor drei Jahren wurde man weder an jeder Ecke mit KI-Funktionen zugeschissen, noch hatte sich das Silicon Valley geschlossen hinter einem faschistischen Despoten versammelt. Ich muss aber zugeben: Meine grundsätzliche Faszination für KI ist ungebrochen und ich halte sie nach wie vor für die größte technologische Revolution seit dem Internet. Etwas also, aus dem man sich nicht raushalten kann, weil es irgendwann selbstverständlich ein Teil vieler Aspekte unseres Alltags sein wird.

Auf der anderen Seite bewege ich mich in einer (Online-)Gemeinschaft von (tendenziell linken) Denker:innen und Kreativen, in deren Statements und Handlungen der KI-Backlash in vollem Gange ist. Ich schätze diese Personen und mag sie zum Teil auch persönlich. Daher fühle ich mich innerlich getrieben, ihre Ablehnung zumindest ernst zu nehmen und meine Haltung zu reflektieren. Dieser Text ist ein Versuch, das zu tun.

Scheinargumente

Zum Anfang möchte ich sagen, dass ich viele Argumente, die gerne gegen die Nutzung von generativer KI vorgebracht werden, für Scheinargumente halte. Sie werden ins Feld geführt, um ein grundsätzliches persönliches Unbehagen rechtfertigend zu unterfüttern. Mit anderen Worten: Ich glaube, dass die meisten Menschen, die sich gegen KI – insbesondere im Bezug auf Kunst und Kreativität – aussprechen, dies auch tun würden, wenn die dafür benötigten Datencenter ausschließlich mit erneuerbaren Energien betrieben und alle KI-Firmen von paritätisch besetzten, ideologisch einwandfreien Vorständen geführt würden. (Unter anderem, weil sie ähnliche Voraussetzungen bei älteren, etablierten Technologien akzeptieren.)

Der Diebstahl (vielleicht) von geistigem Eigentum, das zum Trainieren der Modelle verwendet wird, ist meiner Ansicht nach vor allem ein juristisches Problem, das hoffentlich auch auf diesem Weg gelöst werden wird. Ich vermute, dass es sich vorausgehenden Debatten von Kopiermedien anschließen wird. Ich habe eine legendär schlechte Quote beim Vorhersagen kultureller Zukünfte, aber in diesem Fall bin ich mir sehr sicher, dass wir zumindest in Deutschland irgendwann eine Art Verwertungsgesellschaft bekommen werden, die Urheber:innen einmalig oder fortdauernd für die Verwendung ihrer Werke in KI-Modellen entlohnen wird. Allerdings bin ich mir genauso sicher, dass das Geld, das dabei ausgeschüttet wird, nicht dem entsprechen wird, von dem Urheber:innen glauben, dass sie es verdienen.

Tiefe Angst

Denn die persönliche Angst vor Job- und/oder Bedeutungsverlust in der sich zuziehenden Schlinge des Hyperkapitalismus geht tiefer als jede Kompensation. Es ist eine riesige Kränkung, dass die neueste Automatisierungswelle diesmal zum Teil auch die Menschen betrifft, die sich gerade durch die künstlerische Qualität ihrer Arbeit immer für un-automatisierbar gehalten und dafür oft ohnehin schon ein prekäres Leben in Kauf genommen haben. Hier halte ich KI lediglich für ein Symptom und nicht für eine Ursache der Probleme. Entsprechend kann ein Verzicht auf KI-Nutzung von Einzelnen den Zwang für Kreative, sich umzustellen, höchstens hinauszögern.

Ich glaube, dass ich das sagen darf, weil ich als Autor auch von dieser Automatisierung betroffen bin, wenn auch noch nicht so unmittelbar wie Illustrator:innen oder Synchronsprecher:innen. Ich habe deswegen schon lange vor KI aufgegeben, meine Kreativität zum Mittelpunkt meiner Lohnarbeit zu machen (mehr dazu wahrscheinlich im nächsten Post). Aber ich bleibe genauso davon überzeugt, dass menschliche Kreativität und Kunst immer einen gesellschaftlichen Wert haben werden. Es werden immer weniger Menschen von bestimmten kreativen Dienstleistungen leben können. Aber das wird normal werden und das Selbstverständnis der Betroffenen nicht mehr so stark infrage stellen, wie es schon diverse Male zuvor passiert ist – etwa bei Porträtmaler:innen nach Erfindung der Fotografie. Es mag naiv klingen, aber ich glaube daran. Kunst und Kreativität sind und bleiben gleichzeitig das Wichtigste und das Unwichtigste auf der Welt – und diesen scheinbaren Widerspruch gilt es auszuhalten.

Wir hatten uns doch gerade erst ans Internet gewöhnt

Ein weiterer Grund für eine Anti-KI-Haltung ist meiner Ansicht nach eine prinzipielle Nervosität darüber, dass die gewohnte Ordnung der Dinge erneut zerstört wird, nachdem man sich gerade erst an die letzte Disruption durch Digitalisierung gewöhnt hat. Hier brechen sich dann alle typisch kulturpessimistischen Ängste Bahn, die Kathrin Passig einst in ihren “Standardsituationen der Technologiekritik” beschrieben hat. Wir brauchen es nicht, es ging doch vorher auch; wir werden alle krank und dümmer; wenn wir es nutzen, beschleunigen wir nur den Untergang der Zivilisation. 

Die Ironie liegt für mich darin, dass genau diese Argumente teilweise von Menschen vorgetragen werden, die von der letzten technologischen Revolution noch enorm profitiert haben. Wahrscheinlich, weil sie damals noch (jung und) flexibel genug waren, um sich an die neuen Gegebenheiten anzupassen.

Gras berühren

Die populärste Variante der in dieser Kulturkampf-Arena vorgebrachten Argumente ist, einfach gesagt, “Der Weg ist das Ziel, Dummie”. Sie findet sich beispielsweise in einem sehr populären Vortrag von Brandon Sanderson, als auch in einem Essay von Rebecca Solnit aus der vergangenen Woche und richtet sich gegen das Versprechen von generativer KI, Kreativität und Kunst auf Knopfdruck zu erzeugen. Ihr habt es nicht kapiert, sagen die Gegner. Ausprobieren, scheitern, lernen, wachsen, Erfahrungen sammeln, Gefühle fühlen und verarbeiten, Gras berühren – das alles sind essenzielle Teile des kreativen Prozesses und des Menschseins, die sich nicht wegrationalisieren lassen.

Damit haben sie natürlich recht. Aber sie diskutieren meiner Meinung nach auch mit dem falschen imaginären Gegenüber. Nur weil einige Tech-Bosse und die dümmsten ihrer Fans die Botschaft verbreiten, dass KI menschliche Kreativität und Verbindung größtenteils ersetzen wird, heißt das noch lange nicht, dass die Mehrheit aller Menschen das auch so empfindet. Wer davon ausgeht, dass Menschen immer und überall den einfachsten, kürzesten und im Zweifelsfall unmenschlichsten Weg nehmen werden, sagt damit mehr über sich selbst aus, als über die Gesellschaft. Allen kurzfristigen Trends wie Self-Checkout-Kiosks zum Trotz. (Noch eine naive Meinung, vielleicht. Hier kommt mir leider immer mein positives Menschenbild in die Quere.)

Eine lange Aufzählung von “Selbstverständlichs”

Ich möchte damit auf gar keinen Fall sagen, dass es nichts an generativer KI zu kritisieren gibt. Selbstverständlich haben die Trainingsdaten und die LLMs, die sie nutzen, systematische Biases, die es zu beachten gilt. Selbstverständlich sollte man Informationen, die ein LLM ausspuckt, nicht blind vertrauen. Selbstverständlich sollten wir darauf hinarbeiten, den Energieverbrauch von Datenzentren zu reduzieren oder nachhaltig zu machen. Selbstverständlich sollten wir auf eine offene Architektur von LLMs drängen, sie möglichst frei verfügbar machen und die dahinter stehenden Firmen so stark regulieren wie wir können. Und selbstverständlich gibt es wie immer kein richtiges Leben im falschen und das Medium ist die Botschaft und wir sollten immer wachsam sein, dass wir uns von unserer Technologie nicht diktieren lassen, wie wir unser Zusammenleben gestalten wollen.

Aber das sind gesellschaftliche Aushandlungsprozesse, die meine Faszination für die Technologie nicht eindämmen oder mich davon abhalten, sie überhaupt nutzen zu wollen. Sie bestimmen höchstens, wie ich sie nutzen will. Ich habe mir daher schon vor einiger Zeit einen persönlichen KI-Knigge zurechtgelegt, den ich im Folgenden kurz schildern will. Die Tendenz, auf Umgangsregeln und Reflexion statt auf Verbote zu setzen, sehe ich immer wieder, etwa im Buch von Gregor Schmalzried oder erst diese Woche beim Social Media Watchblog. Wie immer bin ich  froh, dass ich nicht allein bin.

Wie, also, nutze ich KI?

Als Suchmaschinenersatz. Ich betrachte LLMs im Wesentlichen als ein großes Repositorium von Wissen, aufgelöst in wahrscheinliche Zeichenketten, zugänglich durch ein Interface, das natürliche Sprache benutzt. Und damit sind sie in ihrer Basisfunktion eine Suchmaschine mit besserer Usability und ich benutze sie bevorzugt, wenn ich Dinge herausfinden will, bei denen ich nicht genau wüsste, was ich googeln müsste, oder weiß, dass ich mehrere aufeinander aufbauende Suchen bräuchte, um meine Antwort zu finden. Grundsätzlich gilt für mich: Je mehr Variablen meine Anfrage an das Wissen der Welt hat, desto wahrscheinlicher nutze ich ein LLM. Wenn das Ergebnis wichtig ist – aus welchem Grund auch immer – lasse ich mir Quellen dazu ausgeben und überprüfe es anhand dieser Quellen (überhaupt der beste Zusatz zu jedem Prompt).

Als Resonanzraum. Das ist vermutlich die Art Nutzung, bei der Kulturpessimist:innen sofort die Augenbrauen hochziehen würden. Wäre es nicht besser, über seine Ideen und Gedanken mit echten Menschen zu sprechen? Ja, aber nicht immer habe ich echte Menschen zur Hand, und nicht immer kenne ich Menschen, die sich mit dem Thema auskennen, zu dem ich eine Rückmeldung brauche. Könnte ich Primärquellen lesen? Ja. Aber manchmal gibt es Themen, die mir (noch) nicht wichtig genug sind, um viel Zeit darin zu versenken. Und sollte ich feststellen, dass sie mir wichtiger sind, als ich dachte, kann ich die Primärquellen immer noch lesen. Genau wie ich einige Bands durch ihre Greatest-Hits-Alben kennengelernt und erst später ihre komplette Diskografie gehört habe. LLMs haben den Vorteil, dass man ihnen sehr lange Gedankenflüsse entgegenwerfen und am Ende einfach fragen kann: Was haben andere dazu gedacht? Und dass man mehrfach nachfassen und nachsteuern kann, bis man sich dem Gedanken genähert hat, den man sucht.

Als Coach. Einer der größten Erfolge, die ich mit LLMs bisher feiern konnte, ist, dass ich den Spaß am Kochen gefunden habe. Der Schlüssel lag auch hier darin, dass ich dem LLM eine Gleichung mit vielen Variablen übergeben und mich dann mit einigen Iterationen durch das generierte Angebot wurschteln konnte. Kein Kochbuch der Welt hätte so individuell auf meine Bedürfnisse eingehen und meine Schwächen so gezielt ausgleichen können. Eine andere Erfolgsgeschichte war die Erarbeitung eines Live-Rollenspiel-Charakters in einem Setting, mit dem ich nicht vertraut war. Auch hier konnte ich meine Bedürfnisse hineingeben, auf das gesammelte Wissen zum Setting gezielt zugreifen und in einem längeren Dialog am Ende das herausschälen, was ich zum Spielen brauchte. Sicher könnte man argumentieren, dass ich beide Prozesse auch mit echten Menschen hätte durchlaufen können, aber ich hatte einfach nicht den Eindruck, dass ich in diesem Fall mir oder anderen etwas genommen habe.

Als Bildgeber. Dies ist sicher die kontroverseste Nutzung. Aber von dem eben erwähnten Rollenspiel-Charakter, zum Beispiel, habe ich mir auch Bilder generieren lassen, um mich vor dem Spiel besser in die Figur einfühlen zu können. Ich habe auch schon Fantasie-Ideen meines Kindes bebildern lassen, über die sich das Kind sehr gefreut hat (ähnlich wie früher Geschichten). Meine Maßgabe hier ist: Hätte ich ohne KI jemanden damit beauftragt oder es selbst gemacht? Wenn die Antwort eindeutig Nein lautet, bin ich der Meinung, dass ich auch eine KI nutzen kann. KI-Bilder waren immer schon und werden vermutlich auch noch sehr lange ohnehin nur satisficing sein. 

Ich habe dennoch aufgehört, KI-generierte Bilder zum Beispiel für die Bebilderung von Blogartikeln oder Social-Media-Posts zu nutzen. Der Grund ist hier aber weniger, dass ich ethisch dagegen bin, als dass ich inzwischen finde, dass es falsche Signale sendet – vor allem, dass es unprofessionell und unreflektiert wirkt, vor allem solange die Rechtslage noch nicht geklärt ist, meiner Ansicht nach übrigens auch bei Werbe- und Designagenturen. Die Zeit, in der die Nutzung von KI an sich einen splashy Neuigkeits-Experiment-Wert hatte, ist vorbei. Also nutze ich weiter Bilder aus kostenlosen Stockphoto-Datenbanken wie Unsplash und zahle dafür auch nichts.

Als Datensortierer. Hier sind LLMs wieder vor allem ein einfaches Interface für etwas, das geübte Menschen zuvor schon ohne LLMs konnten. Aber einen großen Haufen Daten in ein LLM zu werfen und dann in Alltagssprache die Anweisung geben zu können, aus diesen Daten etwas zu machen und zu interpretieren, ist einfach cool.

Als Abkürzung. Gelegentlich finde ich Prozesse, die sich mit KI tatsächlich beschleunigen und vereinfachen lassen. Das Transkribieren von Audio ist sicher das für mich präsenteste Beispiel. Aber bisher habe ich mich noch nicht in einen Effizienz-Strudel ziehen lassen, der ja neuesten Erkenntnissen zufolge auch nicht unbedingt hält, was er verspricht. Wie Dave Karpf es gerade erst mit Blick auf “Vibe Coding” ausgedrückt hat: “I don’t need a digital assistant to prep my course lectures or keep track of my expenses. Maybe that makes me an outlier, but I kind of doubt it? My daily routines are extremely boring-middle-aged-dad-coded.” Ich glaube, dass dies der wichtigste Bereich ist, in den man sich nicht in eine Scheindebatte mit den KI-wird-uns-komplett-überflüssig-machen-deswegen-müssen-wir-selbst-lernen-alles-mit-KI-zu-machen-Leuten verwickeln lassen sollte.

All about satisficing

Ich erlebe es leider immer wieder: KI-generierter Output, egal ob Text, Bild oder Video, ist trotz aller Begeisterung für die Technologie eigentlich nie nutzbar, wenn man professionelle Standards ansetzt. Dieser Output kann daher nur dann ein Endergebnis sein, wenn der eigene Anspruch nicht so hoch ist (siehe oben: satisficing). Wenn der Anspruch professionell wirken soll, kann KI-Output (zum jetzigen Zeitpunkt) eigentlich nur ein Zwischenschritt oder ein Werkzeug sein. Und deswegen gilt es für jede Art von Arbeit, die man sich abnehmen lässt, herauszufinden, ob die KI wirklich Arbeit spart, sie nur verändert oder sogar mehr Arbeit verursacht. 

Ich muss immer wieder an ein Gespräch mit einer Freundin denken, die als KI-Trainerin für Menschen in NGOs arbeitet. Als ich ihr erzählte, dass ich eigentlich nie Texte von LLMs schreiben oder redigieren lasse, weil ich bisher immer festgestellt habe, dass ich den Text ohne KI besser und schneller hätte schreiben und redigieren können, wies sie mich darauf hin, dass Schreiben und Redigieren aber auch die Sachen seien, die ich am besten kann. Die Leute, mit denen sie arbeitet, müssen aufgrund der Personaldecke kleiner NGOs häufig ein halbes Dutzend Sachen ein bisschen können, statt ein bis zwei Sachen gut. Und sie sind dankbar, dass ihnen KI dabei hilft, die Lücke zwischen schlechten und passablen Ergebnissen zu schließen.

Lieber gut als KI, aber lieber KI als schlecht

Diese Aussage ist für mich ein großer Schlüssel dafür, wie wir über KI-Einsatz denken können. KI kann uns in Bereichen, in denen wir schlecht sind, okay machen, was oft genug im Alltag reicht. Ich lese auch ungerne KI-generierte Texte, aber ich lese sie (zum Beispiel auf Websites) immer noch lieber als richtig schlechte von Menschen geschriebene Texte. Und ich erlebe immer wieder, wie sehr Menschen von diesem kleinen bisschen Hilfe profitieren. 

Sei es, die Angst vorm leeren Blatt zu überwinden, indem die KI wenigstens mal irgendwo anfängt. Sei es die nicht-muttersprachliche Kollegin, die sich traut, mutigere Arbeits-E-Mails zu schreiben, weil ihr KI-Sprachchecker sicherstellt, dass sie nicht nur keine Rechtschreibfehler macht sondern auch keine falschen Idiome benutzt hat. Sei es der Kollege mit Lese-Rechtschreib-Schwäche, der jetzt seine Gedanken in Sprachnachrichten quatscht und sie anschließend von einem LLM in einen ersten Text verwandeln lässt, statt gelähmt vor der Tastatur zu sitzen. Oder sei es ich, der sich traut, zu kochen, weil er niemanden damit nerven muss, wie schlecht er würzen kann. Man kann das als Wunsch nach “Reibungslosigkeit” und Ergebnisse ohne menschliche Komplikationen begreifen – oder als Werkzeug, das uns über kleine Hürden hinweghilft.

Wenn kein passender Mensch zu Hand ist

In Bereichen, in denen wir schon gut bis sehr gut sind, kann die KI uns hingegen bisher nicht das Wasser reichen. Daher ist unsere Expertise immer noch gefragt. Aber sie kann uns als Sparringspartner zur Verfügung stehen, um unsere Expert:innengedanken zu sortieren, zu spiegeln, zu vertiefen, wenn wir gerade keinen passenden Menschen zur Hand haben. Ich halte es für gut möglich, dass das auch so bleibt – allen Versprechungen der Tech-Bosse zum Trotz.

Ich finde das okay. Ich finde es okay, sich von Technologie helfen zu lassen, wobei diese Hilfe für jeden anders aussieht, basierend auf persönlichen Stärken und Schwächen. Ich hoffe, dass die Phase des “Slop” irgendwann vorbeigeht oder zu der Art von Hintergrundrauschen wird, zu der auch andere Automatisierungen (etwa Spam-Mails) geworden sind. Und ich hoffe, dass für Kreative faire Kompensationen (die sich nicht fair anfühlen werden) und neue Perspektiven in der Zukunft liegen. Aber bis dahin werde ich trotzdem nicht aufhören, die Möglichkeiten (und Grenzen) von KI zu erforschen und auszuprobieren.

Foto von Musab Al Rawahi auf Unsplash

Second Screen Murderbot, Panems Historie mit KI, Superhelden im Rückspiegel (Unsortierte Gedanken 3)

Ich habe in der ersten Jahreshälfte die ersten vier Bände von Martha Wells’ Murderbot-Buchreihe gelesen. Angeregt natürlich durch die Serienadaption, die auf Apple TV+ läuft, die ich aber noch nicht gesehen habe. Die Bücher sind so gut wie ihr Ruf, insbesondere das erste, All Systems Red. Murderbot ist eine neue und gut eingefangene Erzählstimme einer introvertierten Mensch-Maschine, die nach Persönlichkeit jenseits von Pinocchio-Klischees sucht, wie im Laufe der Reihe auch immer klarer wird.

Ein in der Kritik eher unterbelichteten Aspekt, den ich faszinierend finde, ist die Art und Weise, wie die Handlung der Murderbot-Bücher eigentlich pausenlos in zwei Sphären stattfindet. Murderbot hat einen Körper, mit dem sich die SecUnit durch die Welt bewegt und der Dinge tut wie kämpfen, gucken oder sprechen. Die meiste Action der komplexen Situationen, in die Murderbot sich immer wieder hineinmanövriert, findet aber virtuell statt. In einem Podcast habe ich gehört, dass Autorin Martha Wells von Ann Leckies Roman Ancillary Justice inspiriert wurde, den ich ebenfalls vor einigen Jahren gelesen habe und dessen Hauptfigur eine virtuelle Intelligenz ist, die anfangs sowohl ein Raumschiff als auch mehrere Bot-Körper besitzt. 

Murderbot hackt sich pausenlos in Sicherheitssysteme und Datenstreams, beobachtet die Welt durch Kameras und Drohnen, kommuniziert per Text und mit Dateien, sowohl mit Menschen als auch mit anderen Maschinen. Er schreibt im Hintergrund Code, den er zu geeigneten Zeiten deployt und bevorzugt in der Regel sogar die virtuelle Interaktion gegenüber dem Meatspace. Die virtuellen Handlungen benötigen allerdings keinerlei räumliche Repräsentationen, wie sie etwa im Cyberpunk üblich sind. Murderbot muss sich nicht „in die Matrix“ begeben und von Knoten zu Knoten reisen, um mit Daten zu interagieren. Die SecUnit macht es einfach, während sie parallel andere Dinge in der physischen Welt tut. Dies entspricht ja längst unserer Realität, wenn wir Textnachrichten schreiben, während wir durch die Stadt laufen, beim Putzen einen Podcast hören, oder die Kollegen in der Zoom-Konferenz anlächeln, während wir parallel eine Slack-Nachricht beantworten.

Zugegeben: In manchen Bänden nimmt die schiere Menge an Datenmanipulation, die den Vorteil hat, das sie nicht plausibel erklärt werden muss (Murderbot „hackt“ einfach drauflos) etwas überhand. Sie erlaubt Murderbot, ständig überall seine Spuren zu verwischen, Systeme nach Belieben zu verwirren und zu deaktivieren und so die Regeln der Welt, in der sich die SecUnit bewegt, so zu verändern, wie es am besten zum Plot passt. Am besten funktioniert die „Second Screen“-Action in relativ isolierten Settings, etwa auf einer verlassenen Raumstation in Band 3.

***

Aktuell lese ich Sunrise on the Reaping, den fünften Band und das zweite Prequel der Hunger Games/Tribute von Panem-Reihe von Suzanne Collins. Collins’ Young-Adult-Dystopien waren von Anfang an immer auch große Kommentare auf die Medienwelt, besonders auf Reality TV und Propaganda, und auch wenn Collins darin nie sehr subtil war, fand ich das immer gut.

Sunrise on the Reaping ist 17 Jahre nach dem ursprünglichen Roman The Hunger Games erschienen, spielt aber 24 Jahre vor dessen Zeit. Die gesamte Welt von Panem liegt so weit in der Zukunft, dass diese Verschiebungen kaum einen Unterschied machen sollten. Trotzdem scheint Collins mitten im Buch das Bedürfnis zu haben, die Tatsache anzusprechen, dass die reale technische Entwicklung seit ihrer ersten Buchtrilogie ein paar Sprünge gemacht hat. In einer Szene, in der die Hauptcharaktere kleine Propaganda-Videos drehen, heißt es plötzlich:

He sighs when he [der Kameramann/Regisseur Plutarch Heavensbee] mentions the tools that were abolished and incapacitated in the past, ones deemed fated to destroy humanity because of their ability to replicate any scenario using any person. “And in mere seconds!” He snaps his fingers to emphasize their speed. “I guess it was the right thing to do, given our natures. We almost wiped ourselves out even without them, so you can imagine. But oh, the possibilities!”

Soso. Auch in Panem gab es also irgendwann mal generative KI. Die wurde aber wieder abgeschafft. Weird retcon, but ok.

***

Es sind wieder mal Superheldenfilme im Kino, James Gunns Superman und The Fantastic Four: First Steps. Ich habe nicht das geringste bisschen Lust, einen dieser Filme zu sehen, auch nicht den viel diskutierten Superman. Ich bin dieses Genres nach fast 30 Jahren Dauerbombardement etwa genauso müde, wie ich einst von ihm fasziniert war (wie dieses Blog beweist). 

Was ich dabei eigentlich am traurigsten finde: Keiner der Filme, die insbesondere seit dem Start des MCU hoch- und runtergehypt wurden, wird jemals wieder irgendeine Relevanz haben, so wie wir etwa dieses Jahr 50 Jahre Jaws feiern. Die ganze Franchise-Brühe, die ja durchaus eine erzählerische Innovation ins Kino gebracht hat, ist jetzt schon und wird in Zukunft noch viel mehr höchstens noch generische Zeitgeisttapete sein – genau wie es die Mainstream-Erfolge rund um Jaws aus den 1970ern (etwa The Towering Inferno) heute sind. 

Oder gibt es irgendeinen Superhelden-Film, der wirklich noch in zwanzig bis dreißig Jahren als herausragender Film gelten könnte? The Dark Knight natürlich. Spider-Man 2 vielleicht. Aber ich würde mein Geld weder auf The Avengers noch auf Guardians of the Galaxy setzen, obwohl das vielleicht die besten MCU-Filme sind. Schade eigentlich.

Sollte ich diese Einträge zu mehreren Themen lieber in einzelne Blogposts gießen?

Foto von Olivier Miche auf Unsplash

Der X-Faktor: Über das Arbeiten mit Midjourney

Im April wollte ich wissen, was dran ist am Hype. Ich hatte mit Chat-GPT rumgespielt, aber mich noch nicht so richtig getraut, den Bot im Arbeitsalltag einzusetzen (mit Ausnahme eines Brainstormings hier und da). Aber das, was Chat-GPT kann – Texte synthetisieren – kann ich ja selbst auch, also war es zwar praktisch, hatte aber wenig Wow-Faktor. Deshalb wollte ich dringend auch ausprobieren wie das andere große Generative KI-Ding funktioniert, und kaufte mir Guthaben beim Bildgenerator Midjourney.

Midjourney, da fühle ich mich Michael Marshall Smith sehr verbunden (der ohnehin mit die besten Texte zu diesem Thema aus Kreativensicht schreibt, nachdenklich und abwägend ohne Businessfokus), ist die ideale Technologie für Leute wie mich. Die Engine generiert Bilder aus Textprompts, sie schafft also etwas, was ich nie selbst könnte (beeindruckende Bilder), aus etwas, in dem ich einigermaßen gut bin (die richtigen Worte finden).

Midjourney Schritt für Schritt

Wer noch nie mit Midjourney gearbeitet hat: so läuft es ab. Man meldet sich auf einem Discordserver an, kauft ein gewisses Rechenguthaben (derzeit kosten rund 200 “Prompts” etwa 10 Euro im Monat) und dann kann man entweder in öffentlichen Channels oder in Zwiesprache mit dem Midjourney-Bot mit dem Generieren anfangen. Mit dem Befehl “/imagine” beschreibt man dem Computer, welches Bild man gerne generieren möchte. Nach etwa einer Minute bekommt man vier verschiedene Motive zur Auswahl.

Mit diesen vier Bildern kann man nun weiter arbeiten und hat drei Möglichkeiten: 1) Alles verwerfen und vier neue Bilder generieren. 2) Von einzelnen Bildern Varianten generieren, bei denen Bildkomposition und Stimmung erhalten bleiben aber Details sich ändern. 3) Einzelne Bilder direkt großrechnen (“upscale”), so dass man sie hochaufgelöst herunterladen kann.

Prompt up the Volume

Midjourney-Prompts, das habe ich durch die Beschäftigung mit den Werken anderer gelernt, können viele verschiedene Formen haben, aber die meisten ähneln inzwischen ungefähr dieser Formel:

[Stil/Medium] eines [Motiv], [weitere Deskriptoren zur Anmutung]

Das Titelbild dieses Beitrags, zum Beispiel, hatte folgenden Prompt:

Candid snapshot of a bald man in his 30s, short cropped beard, and a robot working together, smiling, 1990s sitcom vibes

Man sieht dabei schon, dass die KI nicht alle Wörter gleich behandelt. Die 1990s sitcom vibes hat es sehr gut hinbekommen (vor allem am Pullover zu erkennen) und die Figur hat tatsächlich eine Glatze und einen kurz geschnittenen Bart (wie ich, ich finde es höchst amüsant, diese Pseudo-Avatare von mir in den Bildern auftauchen zu lassen). Aber das Bild ist kein “Candid Snapshot”, es wirkt sehr posiert, und der Mann und der Roboter arbeiten auch nicht wirklich zusammen. Es sieht eher aus, als wäre der Mann ein Bastler à la Nummer 5 lebt.

Und das ist das Besondere.

Katzen und Laser

Midjourney kann Worte in Bilder übersetzen. Das heißt aber noch lange nicht, dass ich mit Hilfe von Midjourney jedes Bild, die ich vor meinem geistigen Auge sehe und beschreiben kann, generieren könnte. Wann immer ich ein genaues Motiv vor Augen hatte und versucht habe, es in Midjourney zu erschaffen, musste ich irgendwann aufgeben.

Ein simples Beispiel: Mein Blog- und Podcast-Kollege Sascha hatte sich gewünscht, dass ich ihm sein Blog-Keyvisual, eine Katze, die Laser aus den Augen schießt, im Ghibli-Stil generiere. Aber trotz einem Dutzend Prompt-Varianten – das Bild wollte einfach nicht entstehen. Ob wegen der Gewaltfilter von Midjourney oder weil einfach nicht genug Lernmaterial dazu vorhanden war, kann ich nicht sagen. Aber Tatsache war: Midjourney konnte mir viele viele Bilder mit Katzen und Lasern bauen, manche davon erinnerten sogar an Studio Ghibli, aber in keinem der Bilder kamen die Laserstrahlen aus den Augen der Katze.

Klar, die Aufgabe von “Prompt Engineers” wird es in Zukunft sein, so lange an den Prompts und Einstellungen rumzudoktern, bis es eben doch passt. Aber für meine begrenzte Erfahrung galt bisher eher: Midjourney erschafft fast nie die Bilder, die ich erwarte oder mir gar wünsche. Aber das heißt nicht, dass die Bilder nicht interessant sind.

Insofern, wie auch schon neulich geschrieben, halte ich es für viel fruchtbarer, die Arbeit mit Midjourney als eine Zusammenarbeit zu begreifen. Die KI ist nicht meine In-Out-Maschine, die das exakte grafische Äquivalent zu dem auswirft, was ich vorher textlich eingeworfen habe. Sie ist vielmehr ein Partner in einem künstlerischen Prozess. Je mehr ich bereit bin, mich von ihrem X-Faktor überraschen zu lassen, desto produktiver wird die Zusammenarbeit.

(Zu diesem hehren Ziel gehört natürlich eine lange Reihe von Fußnoten. Midjourney ist auch eine Klischeemaschine, von der selten zu erwarten ist, dass sie etwas wirklich neuartig Scheinendes erschafft. Sie hat Ismus-Biases ohne Ende, von der ethischen Debatte über die unentgeltliche Nutzung von Werken anderer zu Trainingszwecken ganz zu schweigen.)

Insofern finde ich auch das unter Designer:innen herumgereichte Meme nach dem Motto “Die KI erwartet, dass der Kunde genau beschreibt, was er will. Wir sind sicher” (selbst ürigens eine Neuauflage eines alten Programmierer:innen-Witzes) zwar witzig, aber auch ein wenig am Ziel vorbei. Gute Zusammenarbeit mit Kreativen jeder Art, egal ob Designer:innen, Illustrator:innen oder Texter:innen, hat noch nie darin bestanden, dass die Auftraggeberin exakt das Ergebnis beschreibt und die Auftragnehmerin diese Beschreibung umsetzt. Genau wie die Zusammenarbeit mit der KI besteht auch jede andere fruchtbare kreative Zusammenarbeit, selbst solche, in der eine Partei die andere bezahlt, aus einem produktiven Geben, Nehmen und Iterieren. Der Unterschied dürfte viel eher sein: Die KI ist (bisher) nicht davon überzeugt, dass ihre Auftraggeberin keine Ahnung hat und sie viel besser weiß, was gut für den Auftrag wäre.

Ich habe meine Prompts entsprechend angepasst. Statt vom Ergebnis zu denken und dann nach den richtigen Worte dazu zu suchen, fange ich gedanklich lieber am Anfang an. Ich denke mir ein Motiv aus, eventuell noch ein paar Stilmerkmale dazu, aber den Rest überlasse ich dann erstmal der KI. Manchmal lasse ich sogar bewusst Deskriptoren weg, um mich stärker überraschen zu lassen. Ein Beispiel wäre ein Bild, das ich vor kurzem zur Bewerbung meiner jüngsten Podcast-Folge generiert habe: “Photograph of a Filmmaker trying to take care of the environment”

Alexander Matzkeit/Midjourney

Auf dieser Weise kann ich meine Stärken einbringen, beispielsweise das Kombinieren von verschiedenen Ideen. Und die KI bringt ihre Stärken ein: das stochastische Kombinieren der Elemente im Prompt zu einem neuen, überraschenden Werk, das weder nur von mir noch von Midjourney stammt.

Sondern von uns zusammen.