KI und Kunst

Erkenntnisse aus der Forschung: Prompts und Profit

Als nächster Schritt im kreativen Prozess stand die Illustrationsarbeit bevor. Ursprünglich war es mein Plan, verschiedene Zeichnungen zu meiner Kurzgeschichte zu generieren. Da aber nun die Idee der Kurzgeschichte verworfen war und sich mein Augenmerk auf eine normale Geschichte richtete, die durchaus brutale und sensible Inhalte aufwies, änderte ich diesen Punkt. Das Ziel war es daher, das zukünftige Cover meines ‚Buches‘ zu entwerfen.

An dieser Stelle sollte erwähnt werden, dass sich meine künstlerischen Fähigkeiten im Bereich des Zeichnens und Malens in Grenzen halten, wodurch ein direkter Vergleich zu meinem eigenen Arbeiten – wie es beim Schreiben mit ChatGPT möglich war – hier nicht gezogen werden konnte. Gearbeitet werden sollte hierbei mit der generativen KI StableDiffusion, deren Outcome ich nur allein durch mein laienhaftes Wissen und meine persönliche Einschätzung bewerten konnte.

Lev Manovich setzte sich in dem Kapitel „Seven Arguments about AI Images and Generative Media“ im Werk „Artificial Aesthetics“[i] bereits ausführlich mit dem Thema der generativen Medien auseinander und brachte hier einige aufschlussreiche Erkenntnisse zum Vorschein: Für ihn ist die Revolution von KI gestützten generativen Medien möglicherweise fast so relevant wie die Erfindung der Fotografie. Er erwähnt, dass sich moderne Künstler in der Theorie von der klassischen Kunst und den dazugehörigen spezifischen Charakteristiken, wie der visuellen Symmetrie, den hierarchischen Kompositionen und dem narrativen Inhalt, abwenden möchten. Zusammenfassend beschreibt er dies als Abkehr von allem vorher Bestehendem. Neuronale Netzwerke hingegen seien genau auf das Gegenteil trainiert: Sie lernen nämlich von der Geschichte der Kultur und von der Kunst, die bis heute kreiert wurden. Somit stellt die KI in diesem Punkt wohl das Gegenteil von ‚echter‘ Kunst dar.[ii]

In weiteren Ausführungen merkt Manovich allerdings an, dass in der Praxis Künstler die Vergangenheit gar nicht so sehr ablehnen, sondern vielmehr bestehende Werke neu interpretieren und kopieren. Hier ginge es also nicht darum, alles völlig neu zu erschaffen, sondern vielmehr um eine Anwendung von älteren Ästhetiken auf zeitgenössische Kunstinhalte und -kontexte. In Bezug auf künstliche neuronale Netzwerke merkt Manovich an, dass diese mit von Menschen gestalteter Kunst gespeist werden, ihre Outputs allerdings keine bloßen mechanischen Replika seien, sondern für ihn durchaus neue kulturelle Artefakte darstellten, die bisher ungesehene Inhalte, Stile oder Ästhetiken beinhalteten.

Ferner geht er auf den Aspekt der Kreativität ein, der auch schon im vorherigen Kapitel dieser Arbeit behandelt wurde. Auch Manovich nennt das Kriterium der Originalität als ein Merkmal von Kreativität, zählt allerdings auch das Kriterium des Nutzens auf. Hier erklärt er zudem, dass nur ein sehr kleiner Teil von KI generierter Kunst bisher vorhanden ist und daher keine Aussagen darüber getroffen werden können, wie originell oder nützlich die Werke sind.[iii]  In einem Beispiel zur KI-Kunst beschreibt er, dass durch generative Medien originelle Kunstwerke entstehen, die lediglich künstlerische Charakteristika und Semantiken von anderen Künstlern aufgreifen, dabei aber völlig neue visuelle Konzepte und Bedeutungen tragen.

Hierbei verwenden die Künstler bestimmte Prompts bzw. Eingaben in das KI-Programm, um ihm die spezifischen Bildsprachen der Künstler beizubringen. Dafür nutzen sie beispielsweise Beschreibungen wie ‚dicke Striche‘, ‚flache Kreise‘, ‚blauer Hintergrund‘ und ‚rote Beleuchtung‘. Manovich betont, wie wichtig es sei, die relevanten Informationen in die Datenbank einzuspeisen, um den gewünschten Output der KI zu erhalten.[iv] Ein wichtiger Punkt bei der Arbeit mit einem Text-Bild-KI-Modell sei es, dass es versucht, diejenigen Bilder vorherzusagen, die am besten zu den Prompts passen. Somit sei die Arbeit der generativen Medien-KIs prädiktiv, genauso wie der menschliche Schöpfungsprozess: „Ein neuronales Netz wird mit unstrukturierten Sammlungen kultureller Inhalte trainiert, z. B. mit Milliarden von Bildern und deren Beschreibungen oder Billionen von Web- und Buchseiten. Das neuronale Netz lernt Assoziationen zwischen den Bestandteilen dieser Artefakte (z. B. welche Wörter häufig nebeneinander erscheinen) sowie deren gemeinsame Muster und Strukturen.

Das trainierte Netz verwendet dann diese Strukturen, Muster und ‚Kulturatome‘, um neue Artefakte zu erstellen, wenn wir es darum bitten. Je nachdem, worum wir bitten, können diese von der KI geschaffenen Artefakte dem bereits Vorhandenen sehr ähnlich sein oder auch nicht.“[v] In ähnlicher Weise sei auch unser Leben ein ständiger Prozess der kulturellen Bildung, indem wir unsere eigenen neuronalen Netzwerke mit Artefakten aus Kunst, Webseiten, Videos, Zeitschriften, Museen und Reisen füttern. Würden wir folglich schöpferisch tätig werden, bedienten wir uns unserer gelernten Artefakte.

Ein großes Augenmerk legt Manovich in seiner Forschung auf die Eingabe von Promps in die KI-Programme wie StableDiffusion oder, in seinem Beispiel, Midjourney. Er merkt an, dass neuronale KI-Netze, die zur Bilderzeugung verwendet werden, häufig einen Standard-Stil für die Generierung der Bilder verwenden. Dieser kommt zum Einsatz, wenn nicht explizit ein Stil angegeben wird. Damit das Bild von dieser Vorlage abweicht, müsse man demnach zu den Promps bestimmte Begriffe hinzufügen, die das Medium genauer beschreiben, wie die Art der Beleuchtung, die Farben und Schattierungen, oder eine Formulierung, wie „im Stil von", gefolgt vom Namen eines bekannten Künstlers, Fotografen, Modedesigners, Illustrators oder Architekten. Manovich selbst hat in seiner Forschung Eingaben, wie „klare Haut, sehr weiches Studiolicht, 50mm Objektiv, monochrom, Silbertöne, hohe Qualität“[vi] getätigt. An dieser Stelle lässt sich also sagen, dass die Eingabe der Prompts ausschlaggebend für das Ergebnis ist. Hier scheint die Devise zu sein: Je mehr Informationen ich liefere, desto wahrscheinlicher wird mein gewünschter Output erscheinen.

Was für Manovich bei der Arbeit mit generativen Text-Bild-KIs sehr auffällig ist, sei die ästhetische und inhaltliche Kluft zwischen menschlichen und künstlichen Schöpfern. Das läge daran, dass Strukturen, die in den Trainingsdaten selten oder nur einmal vorkommen, von der KI kaum gelernt oder gar nicht analysiert werden, weshalb folglich Zeichnungen im eigenen Stil von Programm nicht umzusetzen wären. Ein weiterer auffälliger Punkt sei der Fakt, dass die KI häufig neue Medienartefakte erzeugt, die stereotyper oder idealisierter sind, als wir es mit der Eingabe der Prompts beabsichtigen.[vii] Manovich merkt ferner an, dass es erforderlich ist, Namen bestimmter Künstler, Materialien, Medien und kunstgeschichtlicher Epochen hinzuzufügen, um ein Thema unterschiedlich darzustellen. KI-Medienwerkzeuge scheinen, ihm zufolge, die Semantik der Darstellung zu verstehen. Trotzdem müsste man möglicherweise den Inhalt ändern, um einen bestimmten visuellen Stil mit den aktuellen KI-Tools erfolgreich zu generieren.[viii] 

Bereits im Kapitel zu Schreiben und KI wurde das Thema der Autorschaft, insbesondere bei Schröter, aufgegriffen; es lässt sich ebenfalls auf die KI-Bildgeneratoren anwenden. Auch Pamela C. Scorzin beschäftigte sich mit dem Thema der Autorschaft explizit bei generativen Text-Bild-KIs in „Ko-Kreation und Evolution in der AI ART am Beispiel von Pierre Huyghes 'Mental Image'-Installationen“[ix]. Sie beschreibt, dass KI-Kunst aus einem großen und komplexen Netzwerk entstehe, in dem menschliche und nicht-menschliche Akteure miteinander interagieren und gemeinsam kreativ handeln. Die von einer Künstlichen Intelligenz generierte Kunst sei also eine Kollaboration und Ko-Kreation in einem Netzwerk aus Mensch und Maschine, konkret aus Künstlern und KI.[x]

Ferner schreibt sie: „Mithilfe von KI wird somit längst Kunst und Design geschaffen, inszeniert und distribuiert. Ob KI dabei die geniale Erschafferin, Urheberin und Autorin oder lediglich ein unterstützendes Werkzeug, ein Hilfsmittel und eine weitere neue Technik für KünstlerInnen ist, hängt dabei wesentlich davon ab, wie AI ART in einem Netzwerk von handelnden AkteurInnen betrachtet, diskutiert, ‘gerahmt’, evaluiert und valorisiert wird.“[xi] Dabei habe aber der Kunstmarkt, also die Menschen, scheinbar schon entschieden, welche Rolle die KI bei der Erstellung von Kunst spielt: Von KI generierte Werke werden bereits seit ein paar Jahren weltweit ausgestellt, versteigert, inszeniert, gekauft und gesammelt. Das würde wiederum bedeuten, dass die Menschen der KI – zumindest geteilte – Kreativität durchaus zusprechen.

 


[i]  Lev Manovich: „Seven Arguments about AI Images and Generative Media” (2023), in:  Lev Manovich und Emanuele Arielli (Hrsg.): Artificial Aesthetics: A Critical Guide to AI, Media and Design, 2021, http://manovich.net/content/04-projects/167-artificial-aesthetics-book/manovich-ai-image-and-generative-media.pdf [Zuletzt aufgerufen am 07.5.2024].

[ii] Vgl. ebd., S.1-5.

[iii]  Vgl. ebd., S.6.

[iv] Vgl. ebd., S.6-11.

[v] Ebd., S. 14. Übersetzung aus dem Englischen von der Autorin.

[vi] Ebd. S.17.

[vii] Vgl. ebd., S.14-18.

[viii] Vgl. ebd., S.18-25.

[ix] Vgl. Pamela C. Scorzin: „Ko-Kreation und Evolution in der AI ART - am Beispiel von Pierre Huyghes 'Mental Image'-Installationen“, in: kunsttexte.de, S.1., https://journals.ub.uni-heidelberg.de/index.php/kunsttexte/article/view/88240/83310 [Zuletzt aufgerufen am 07.5.2024].

[x] Vgl. ebd.

[xi] Ebd., S.2.

 

>> Weiter zu "Ko-Kreation mit StableDiffusion: Das Buchcover"