27 Mai Künstliche Intelligenz, wir müssen reden.
KI, also Künstliche Intelligenz oder auf Englisch AI, Artificial Intelligence, ist ja zurzeit in aller Munde – zurecht übrigens. ChatGPT von OpenAI war so der erste große Schock, der nicht nur durch einschlägige Szenen gewalzt ist, sondern auch beim Otto-Normal-Bürger für Begeisterung oder Beklemmung gesorgt hat.
Ich erinnere mich noch gut an die Debatten, ob der Chatbot „bewusst“ sei und wie verrückt das doch ist, dass eine Maschine einen nun fast besser versteht als ein Mensch. Spätestens als DallE per Prompt Bilder zu generieren vermochte, klingelten auch die Alarmglocken bei kreativen Menschen unserer Berufsgruppe. Wurden die ersten Ergebnisse damals aber noch belächelt, ist das Thema in nicht einmal zwei Jahren komplett salonfähig geworden.
Mittlerweile kämpfen große Konzerne und Startups um das immer bessere Sprachmodell und preisen immer neue Generationen ihrer Bildgeneratoren an. Keiner will sich die Blöße geben, diesen Zug zu verpassen, und so geschehen doch teils skurrile und überoptimistische Eingliederungen von KI in Firmenstrukturen. Da ließ ein großer Autohersteller ein Sprachmodell den Servicechat bis zum Verkauf führen, was in einem 1-Dollar-für-ein-Auto-Deal mündete, und andere Modelle werden gar ausfällig, bequatscht man sie nur lange genug.
Was ist also dran an KI, und kann man das guten Gewissens verwenden? Verwenden wir KI?
Es gibt bessere und schlechtere Systeme und alle davon haben wahnsinnige Stärken, aber auch bodentiefe Schwächen. Mit ChatGPT lassen sich Texte zum Beispiel wunderbar zusammenfassen, umschreiben, kürzen oder auf Fehler überprüfen. Man kann das Modell mittlerweile sogar mit PDF- oder Word-Dokumenten füttern, und es kann damit beeindruckend gut arbeiten. Ist das 100% akkurat? Nein. Ist das ein Mensch? Wahrscheinlich auch nicht. Wir haben stark gemerkt, dass im Alltag LLMs, also Large Language Models wie ChatGPT, zwar eine tolle Hilfe und Inspiration sein können, aber bei weitem noch niemandem auch nur irgendwo den Job klauen. Man muss auch immer auf dem Schirm haben, dass die Chatbots zwar mittlerweile extrem eloquent daherkommen, aber trotzdem gerne noch halluzinieren und Fakten einfach mal erfinden – vor allem, wenn man sie in diese Richtung triggert.
Ein Beispiel: Fragt man ChatGPT in seiner neuesten Version, was der Unterschied zwischen der Nikon Z2II und der Nikon Z8 ist, bekommt man eine detaillierte Gegenüberstellung mit vielen Fakten. Nur dass es die Nikon Z2II gar nicht gibt. Ich hatte mich vertippt und meinte die Nikon Z6II. ChatGPT hat aber trotzdem antizipiert, dass es sich bei der Z2 um ein schlechteres Gerät handeln müsse, und mir Spezifikationen ausgespuckt, die schon passen würden, gäbe es dieses Produkt. Man muss also schon etwas Wissen mitbringen, um auch bewerten zu können, wann das Teil Sachen erfindet, um klug dazustehen.
Bei den Bildgeneratoren sieht es nicht großartig anders aus. DallE oder Adobe Firefly sind ihrer ersten Generation weit entwachsen und liefern teils Bilder, für die man einen Künstler eine Woche bezahlen müsste. Sie können auch absolut fotorealistische Werke liefern, von Menschen, die nie existiert haben. Das kann man schon gut nutzen, aber auch hier gibt es Haken. Da wir mit unserem Kundenstamm eher in einer Nische arbeiten, ist auch der Ideenreichtum dieser Modelle begrenzt. Man muss wissen, sie wurden mit echten Bildern trainiert und können das schon auf andere Bereiche ummünzen, wenn man aber eine ziemlich genaue Vorstellung von dem hat, was dabei herauskommen soll, wird es schwierig.
Bildgeneratoren arbeiten am besten, wenn man irgendein Bild braucht. Also ganz grob gesagt: ein Porträt eines Baumarktmitarbeiters mit grüner Latzhose im Markt? Kein Problem. Ein Bild von einem Kind, das mit einem Wasserschlauch spielt und sich dabei freut? Auch kein Problem, aber irgendwie doch. Das ist jetzt etwas schwer zu erklären, also, es würde schon ein Bild entstehen, das den Text, also den Prompt, wiedergibt – aber eben nicht so, wie man sich das vorstellt. Der Ausdruck, die Bewegung, die ganze Körperhaltung, das Spiel mit dem Hintergrund und was wo und wie im Bild liegt, das bekommt man, egal wie lang man seine Beschreibung werden lässt, meist nicht so hin, wie man das will. Ich will auch gar nicht erst von sechs Fingern oder gruseligen Augen anfangen, aber da gibt es schon oft noch gute Fehler. Als Faustregel gilt hier: Wenn dein Bild recht unspezifisch ist, kann das KI für dich gut erledigen. Wenn du eine sehr genaue Vorstellung hast – vergiss es.
Auszudrücken, was man will, ist schon schwierig genug. Das aber dann auch zu bekommen, ist nochmal eine Ecke weiter weg – das ist ja auch nur logisch. Müsste ich einem Fotografen nur mit Worten beschreiben, was ich für ein Bild aus meinem Baumarkt möchte, ohne dass er meinen Markt kennt oder dort hineindarf, kommt eben auch nur etwas Beliebiges heraus, was eben nicht genau meinen Markt spiegelt. Das Problem liegt also nicht nur bei der noch unperfekten KI, sondern auch in der Natur der Sache.
Nutzen wir also KI? Ja, auf jeden Fall. Aber eben mit Vorsicht, Vorbehalt und noch an Stellen, an denen das Ergebnis entweder „egal“ ist – Stichwort Platzhalter und Beispiel –, man sonst nichts Besseres bekommen würde oder wo es tatsächlich wie die Faust aufs Auge passt und geprüft werden kann.
Ich schätze aber, in zwei Jahren sieht die Welt schon ganz anders aus.
Autor: Marco Schoppa von +mehrwert