top of page

KI - Was zu bedenken wäre. - II


Der Ursprung der Daten


Eine weitere Sache, abgesehen von der Kategorisierung unserer Trainingsdaten, ist der eigentliche Ursprung von den Tausenden und Millionen von Datensätzen, welche für die Entwicklung der Künstlichen Intelligenz benötigt werden. Auf eigentlich alles, was zum Training einer KI benötigt wird, liegt das Urheberrecht, auch wenn es möglich ist, dass Firmen selbst die Unmengen von Daten generieren und sie dann kategorisieren lassen.

Das bereits erwähnte Street View von Google ist sehr wohl auf deren Kosten gesammelt worden, auch wenn diese Datensammlung selbst nicht auf den sichersten rechtlichen Beinen steht. Doch noch öfter werden Daten in rauen Mengen dem Internet entnommen, ungeachtet der Besitzrechte der eigentlichen Urheber. Fotos, Videos, Gemälde, Zeichnungen, Bücher, Gedichte, Blogeinträge, Musikstücke, Artikel und noch viel mehr werden von darauf spezialisierten Firmen gesammelt, für vielseitiges KI Training aufbereitet und weiter angeboten.


Hier spielt nicht immer der Profit direkt eine Rolle, so ist zum Beispiel die deutsche Non-Profit-Organisation „LAION“ für einen großen Teil der Daten für den beliebten Bildgenerator „Stable Diffusion“ verantwortlich. Eine Organisation, deren Daten unter anderem die Wahrscheinlichkeit mit angeben, dass ein Bild ein Wasserzeichen enthält, um diese in den generierten Bildern nicht nachzuahmen.

Es zeigt sich somit, dass das Recht am Bild bei der Erstellung solcher Daten nicht sonderlich hochgeachtet wird, sind doch Wasserzeichen gerade dazu da, diese Rechte zu wahren und Wiederverwendung zu unterbinden. In den meisten Fällen sind entweder die Entwickler der KI selbst oder die Sammler der Daten wenig transparent darüber, wo diese herkommen, welche Quellen sie verwenden und mit welchem Recht sie diese in ihr Produkt einbeziehen.

Die rechtliche Grundlage von KI Training zu regulieren, wird in den nächsten Jahren eine große Aufgabe der Politik sein.






Die Verletzung der Urheberrechte ist im Internet ein großes Problem.







Wie ist das nun mit Texten?


Bis jetzt haben wir uns ausführlich mit der bildlichen Seite des KI-Technologiespektrums befasst. Da es hier und in den folgenden Beiträgen jedoch um die literarische Seite gehen soll, wird es Zeit, die bis jetzt gewonnen Erkenntnisse auf das Verstehen und Erstellen von Texten zu übertragen. Tatsächlich ist es so, dass wir einen ganz kleinen Cousin der Text- und Chat-KIs bereits seit einigen Jahren auf unseren Mobilgeräten verwenden. Die Autokorrektur macht in kleinem Maßstab das, was die KI jetzt perfektioniert. Sie errät zuerst einmal, welches grob vertippte Wort wir eigentlich schreiben wollen. Anhand von Mustern in geschriebenen Texten versucht sie dann herauszufinden, welches das nächste geschriebene Wort ist und schlägt es uns vor. Die KI hat es mit Texten etwas einfacher als mit Bildern. Text ist bereits strukturierter als es Bilder sind und Texte sind auch in der Menge der Daten wesentlich genügsamer. So lassen sich viel größere und komplexere Muster im Modell der KI speichern. Im Umkehrschluss ist es auch einfacher für generative KI, solche Muster selbst zu erstellen, wiederzugeben oder weiterzuführen.


Wenn eine Technologie mehr Aufmerksamkeit erzielt hat als die verschiedenen, sehr beeindruckenden Bildgeneratoren, dann ist es die KI, welche Chats mit uns führt, Texte versteht und schreibt und ja, auch ganze Bücher alleine verfasst. Bei ChatGPT und dessen verwandten Modellen sind wir von Systemen beeindruckt, welche natürliche Sprache zu verstehen und richtig zu beherrschen scheinen. Trainiert mit Unmengen an Daten verschiedensten Ursprungs können sie sogar Computercode schreiben, im Stile berühmter Poeten dichten und fast natürlich auf eine Konversation eingehen. Bis vor kurzem wurde jede Konversation mit ChatGPT, wieder direkt zu Trainingszwecken genutzt. Diese enthalten wertvolle Worte, geschrieben von echten Menschen. Seit einigen Tagen kann man dies erst ausstellen. ChatGPT und dessen Abkömmlinge scheinen unaufhaltsam.


Die KI gewinnt ihr Wissen aus unzähligen von Menschen verfassten Texten, nimmt diese auseinander und setzt sie neu zusammen.


Doch wir müssen uns erinnern, KI denkt nicht, jedenfalls nicht, wie wir es von Menschen gewohnt sind. KI versteht nicht Inhalt, Schreibstil oder gar Story. KI ahmt Muster nach, die sie aus ihren Trainingsdaten in ihr Modell aufgenommen hat. KI ist Meister in Mimikry und es scheint, als wäre das für einige Anwendungen genug, um einen Menschen zu ersetzen.



Wo führt das hin?


Angesichts des rasanten Fortschritts, der schier unaufhaltsamen Marschgeschwindigkeit der Entwicklung von KI fragt sich so manch einer, wie weit diese Technologie noch gehen kann. Welch scheinbare Wunder zu Alltag werden können, bis diese Technik ihr Plateau erreicht. Grafiker, Zeichner, Komponisten, Programmierer, Journalisten und Autoren stehen vor einer Konkurrenz, die schneller und flexibler arbeitet, als sie es je könnten. Werden all jene Berufszweige, deren Werke sich als digitale Daten darstellen lassen, bald verschwinden? Es ist fast unmöglich, die Zukunft mit auch nur einem Hauch von Genauigkeit vorherzusagen. Doch wenn wir auch nicht erahnen können, welche Technologien in diese Richtung noch erfunden werden, so können wir anhand unseres Verständnisses der Grundprinzipien des maschinellen Lernens versuchen, ein paar Grenzen dieser momentan vielseitig genutzten Technik aufzuzeigen.





Die Technologie der Gesichtserkennung basiert auf dem, was wir Künstliche Intelligenz nennen und wird wie diese trainiert.






Einer der wichtigsten Faktoren in der Qualität der KI ist die Qualität der gesammelten Daten. Einerseits sind hier Umfang und Diversität der Daten vonnöten. Eine Gesichtserkennungs-KI beispielsweise, welche an Fotos aus Indien trainiert wurde, wird sicher Probleme haben, global eingesetzt zu werden. Zu wenige oder zu beschränkte Daten führen zu schlechten Ergebnissen und es wird Gebiete geben, wo die Datenmenge schlicht nicht ausreicht oder schwer zu erhalten ist.

In der Programmierung zum Beispiel finden sich zuhauf simplere Abschnitte von Quelltext, aber große und komplexe Programme und deren Code sind meist Industriegeheimnisse, welche kaum in großer Menge zum Training von KIs eingesetzt werden können.

Außerdem übernimmt eine KI auch alle Vorurteile, Unwahrheiten oder Ungenauigkeiten aus einem Datensatz. Eine KI kann nicht bewerten, welche Qualität die Daten haben, an denen sie trainiert wird, sie werden einfach in das Modell mit aufgenommen. Selbst neuere KI Modelle, welche selbstständig Websuchen ausführen können, um Daten zu ergattern, welche nicht in den Trainingsdaten enthalten sind, können noch immer nicht dafür sorgen, dass diese Daten tatsächlich schlüssig und immer relevant sind. Als große Datenpakete sind KI Modelle auch nicht in der Lage, eine eigene logische Konsequenz zu ziehen, Argumente zu führen, die in ihren Datensätzen nicht auch schon geführt wurden oder auf Schlüsse zu kommen, die so oder so ähnlich nicht auch ein Mensch in ihren Daten erreicht hat.

Das Erzeugen von wahrhaft Neuem ist etwas, woran maschinelles Lernen scheitert und auch wenn es nicht unmöglich erscheint, dass diese Technologie mit genügend Daten und einigen zufälligen Eingangsvariablen zu etwas Ähnlichem wie Kreativität in der Lage ist, so ist der Beweis dazu noch nicht erbracht worden. KI kann neu mischen, Kombinationen von Worten oder Bildelementen erzeugen, die es niemals gab. Doch ohne Menschen, die sich etwas Neues ausdenken, die mit Originalität schaffen, ist es wohl unwahrscheinlich, dass eine KI über ihr bisher gelerntes herauswachsen kann.


Die Effizienz und Genauigkeit von KIs wird nur steigen, doch schlussendlich sind sie alle komplizierte Nachahmer. Eine clevere Wiedergabe von Daten. Es ist schwer zu sagen, wie weit es die Imitation von Intelligenz noch bringen wird, doch eins ist sicher. Ohne Menschen, welche die Daten generieren, ohne menschliche Intelligenz, welche Daten einordnet und kategorisiert, kann keine KI existieren.


Echte Intelligenz? Oder nur echt künstlich?


An dieser Stelle wird oft eines angebracht. Sind wir Menschen nicht auch bloß die Summe unserer Erfahrungen? Treffen wir nicht auch nur Entscheidungen aufgrund dessen, was wir wissen oder erlebt haben, aufgrund der „Daten“ welche wir unser Leben lang sammeln? Ist das Nachahmen von intelligentem Denken schlussendlich nicht das, was wir auch tun? Und selbst wenn nicht, ist dann nicht eine perfekte Nachahmung dem Original gleichzusetzen?

Wir sind weit davon entfernt, ein gutes Verständnis des menschlichen Denkens zu haben. Es gibt zuhauf Theorien, welche dazu ansetzen es zu beschreiben und damit sogar vorherzusagen. Deshalb kann ich in dieser Sektion nur an die eigene Erfahrung plädieren. Es möge jeder selbst in sich gehen und überlegen, ob der eigene Denkprozess dem einer Maschine gleichkommt, die Muster in Daten erkennt und wiedergibt.

Wenn ich mich frage, ob ich nur gelernt habe, in welchem Kontext ein Wort vorkommt oder ob ich dessen tatsächliche Bedeutung als Konzept erkenne und es nach dieser Bedeutung verwende, so sehe ich darin doch einen gewaltigen Unterschied. Diese Art von tiefem Verständnis ist etwas, was keine KI besitzt und aufgrund der Methoden, welche diese Maschinen verwenden ist es sehr fraglich, ob Maschinenlernen zu diesem Verständnis gelangen kann.

Es gibt hier ein schlüssiges Argument, dass der Begriff „Künstliche Intelligenz“ an die aktuellen Maschinenlernmodelle wie an so viele damit benannte Dinge zuvor verschwendet ist. Die Art von echter Intelligenz, dem, was Menschen innehaben, ungeachtet einmal dessen, dass sie wahrscheinlich auch in vielen Tieren zu finden ist, diese Intelligenz haben wir künstlich noch nie erzeugen können. Es ist eine offene Frage, ob wir mit zunehmender Rechenleistung und anderen Technologien, die heute noch nicht erfunden sind, zu dem Punkt kommen, eine wahre künstliche Intelligenz zu erschaffen. Ein System, welches nicht nur Daten aufnehmen, sondern einordnen und verstehen kann.

Solch ein System wäre eine echte künstliche Intelligenz. Vielleicht erfinden wir dafür einmal einen eigenen Namen, sobald es so weit ist. Doch bis dahin müssen und sollten wir uns der Einfachheit eines Begriffs beugen, der zwar fälschlich und ein wenig irreführend, aber auch allgemeinverständlich beschreibt, was für ein Programm wir da gerade am Computer vor uns haben.


Und bei alledem sollten wir niemals die Intelligenz unterschätzen, die in unseren eigenen Köpfen ruht, die uns besonders macht und ohne die keine KI je existieren könnte.


Der Blogbeitrag stammt aus der Feder von Gastautor Stefan E., IT-Supporter, Physikstudent und KI-Observierer.

Comments


time-2825977_1920.jpg

Zwischenzeiten

bottom of page