Herkunft und Funktionsweise
Dieser Beitrag wurde von einem Menschen geschrieben.
Ich erlaube mir, mit diesem doch recht seltsam klingenden Satz zu beginnen. Ein Satz, den wir in Zukunft wahrscheinlich immer häufiger lesen werden, ob in Ernst, Spaß oder sogar in Unwahrheit.
Ob wir es wollen oder nicht, die „Künstliche Intelligenz“ ist aus den Sphären der technologischen Vorreiter und Computerzauberer vorgeprescht und in der breiten Masse angekommen. Für solche, die ihre Entwicklung nicht verfolgt haben, ist sie scheinbar aus dem Nichts auf der Bildfläche erschienen und hat sich im Allgemeinverständnis eingenistet. Sie hat neu definiert, was möglich ist und was man erwarten kann und muss. Fast wie über Nacht sind Computer auf einmal in der Lage Dinge zu tun, die man ihnen zuvor nie zugetraut hat. Unmöglich geglaubte Kunststücke können plötzlich vollbracht werden.
Noch vor wenigen Jahren wurden die Chancen, dass ein Computer eine Frage zu „verstehen“ und eine kohärente Antwort auf sie zu geben, nahe der Null angesiedelt. Den Inhalt eines Bilds sinnvoll zu beschreiben oder gar ein neues Bild aufgrund einer bloßen Beschreibung zu erstellen, war ebenso wenig vom eigenen Computer zu erwarten wie das Kochen des Mittagessens oder das Vorhersagen der Lottozahlen.
In gleichem Maße wäre es nicht denkbar gewesen, dass dieser Artikel aus einem Computer kommen könnte. Zwar gab es schon zuvor automatisch geschriebene Texte, einfache Algorithmen, die Worte austauschen und einen vorgeschriebenen Text schnell und einfach zu einem anderen anpassen. Doch einen Text wie aus dem Nichts komplett formulieren, das gab es nicht. Und damit auch keinen Grund darauf hinzuweisen, dass dieser Text einer Menschenhand entsprang. Aber die Frage nach dem Ursprung dieser scheinbar aus der Luft gegriffenen Werke bringt uns auf die richtige Spur, um zu verstehen, wie diese neue KI funktioniert.
Künstlich intelligent?
Als Künstliche Intelligenz wurden schon viele verschiedene Apparate und Einrichtungen bezeichnet. Ganz abgesehen von dem, was uns die Science-Fiction präsentiert, fallen sowohl großangelegte Planungssysteme wie das gescheiterte chilenische Projekt Cybersyn als auch die programmierten Gegner in Computerspielen unter diesen breiten Schirm.
Eine Künstliche Intelligenz ist einerseits von Menschen geschaffen und trifft andererseits Entscheidungen aufgrund bestimmter Faktoren, auf welche die KI zugreifen kann.
In den meisten Fällen hängt hier die Komplexität dieser Entscheidungen davon ab, welche Möglichkeiten bei der Entwicklung und Konstruktion des Systems bedacht wurden. Ganz zynisch könnte man nach solch einer Definition auch davon reden, dass Transistoren und Relais künstliche Intelligenz sind, treffen Sie doch basierend auf dem angelegten Steuerstrom die „Entscheidung“ einen Stromkreis zu schließen oder nicht. Niemand käme auf die Idee, diese Dinge tatsächlich als KI einzuordnen, aber es verrät, wie breit unsere Nutzung dieses Begriffs in der Vergangenheit war.
Auf diese Bühne tritt nun ein neuer Spieler. Eine Technologie, die nach vielen Durchbrüchen heute das ist, woran wir denken, wenn KI gesagt wird. Es geht um das „Maschinelle Lernen“, beziehungsweise deren komplexere Unterkategorie „Deep Learning“, wörtlich tiefes oder tiefgehendes Lernen.
Diese Technologie hat all die KI-betriebenen Produkte der letzten Jahre hervorgebracht. Von Chat-GPT bis DALL-E, sei es das Schreiben und Reagieren auf Text, Erstellen von Bildern nach Beschreibung, autonomes Fahren, Gesichtserkennung, Übersetzung und vieles, vieles mehr, wofür diese KI-Modelle eingesetzt werden.
Sie alle basieren auf Varianten des maschinellen Lernens und um zu verstehen, wo diese beeindruckenden Leistungen herkommen, ist es wichtig im Grund zu verstehen, wie diese Techniken arbeiten.
Was lernt meine Maschine?
Man stelle sich vor, man möchte eine KI erstellen, die feststellen kann, ob ein Bild einen Elektroroller enthält. Vielleicht als Teil eines Systems, welches ein Auto fahren und seine Umgebung erkennen soll oder als eine Firma, die diese Roller verleiht und ihre Ware schnell auf Fotos finden möchte, wenn sie verloren geht. Der erste Schritt, um einem Computer solche Dinge einzutrichtern ist, eine Menge an Daten zu sammeln. In unserem Beispiel wären das Tausende oder Millionen Fotos von Elektrorollern. Zusätzlich benötigen wir noch mindestens ebenso viele Fotos aus der gleichen Umgebung, aber ohne Roller. Sonst könnte es passieren, dass unsere KI auch Kinderwagen oder Fahrräder als Roller erkennt.
Man könnte nun ein neues Foto nehmen, von welchem man wissen möchte, ob es einen Roller enthält, und es mit jedem anderen Foto in dieser riesigen Datenbank vergleichen. Eventuell hat man Muster gefunden, nach denen man suchen kann, statt Pixel blind zu vergleichen und kann so von einem neuen Bild mit relativ guter Sicherheit automatisch eine Aussage treffen, ob es einen Elektroroller enthält.
Das Prinzip erscheint fast schon einfach, jedoch sind die Größenordnungen dahinter gigantisch. Die Menge an Daten, welche bereitgehalten und zu jedem Vergleich herangezogen werden muss, ist schlicht zu groß, um so ein System effektiv zu betreiben. Soll jedes autonom fahrende Fahrzeug diese riesige Datenbank enthalten und mit seiner eigenen Leistung diese Vergleiche dauerhaft durchführen? Derart umfangreiche Berechnungen wären in keiner realistischen Zeit möglich.
Hier kommt nun das maschinelle Lernen ins Spiel. Man nimmt seinen riesigen Datensatz und steckt ihn in ein System, welches Algorithmen enthält, um selbst Muster zu erkennen. Dieses System geht die Daten durch und „notiert“ sich, welche Muster wahrscheinlicher zu dem gesuchten Objekt gehören. Je mehr Daten das System erhält und je größer dessen Speicher an möglichen Mustern ist, desto korrekter kann seine Einschätzung sein, ob ein neues Bild das gesuchte Objekt enthält. Schlussendlich ist es reine Statistik, komplexe, vielschichtige Statistik, mit einem clever entwickelten System dahinter, doch trotzdem Statistik.
Der Trick ist, dass unser Speicher an Mustern, unser Modell zur statistischen Einschätzung der Bilder um viele Größenordnungen kleiner ist, als der ursprüngliche Datensatz. Auch ist es wesentlich weniger rechenintensiv, ein Bild durch unser Modell zu schicken, als es gegen jedes andere Bild abzugleichen. Damit ist es mit leistungsstarken Computern möglich, diese Vergleiche in sehr kurzer Zeit durchzuführen.
Zusammenfassend kann man sagen, dass maschinelles Lernen und gerade Deep Learning Methoden sind, um eine riesige Menge an Daten in ein viel kleineres Modell zu überführen, welches diese Daten in ausführlicher statistischer Art beschreibt.
(Bild: Sven Behnke - „Namensnennung – Weitergabe unter gleichen Bedingungen 4.0 international“)
Illustration des Grundprinzips der Mustererkennung.
Ich habe das Beispiel der Motiverkennung gewählt, da es einerseits eine gut vorstellbare, bildliche Anwendung der KI Prinzipien darstellt und andererseits weil gerade die KI Modelle, welche momentan für den meisten Gesprächsstoff sorgen, auf dieser Anwendung basieren.
Generative Künstliche Intelligenz
Sagen wir nun, eine KI möchte, statt Dinge auf Bildern zu erkennen, selbst Bilder erstellen, mit den gewünschten Motiven darauf.
Wir können jetzt eine zweite KI erstellen, welche aus einem Bild mit zufällig gefärbten Pixeln Schritt für Schritt mehr Struktur herausholt. Wieder nutzen wir das Beispiel unseres Elektrorollers und wenden auf die erstellten Bilder zwischen den Schritten unsere erste KI an, um einzuschätzen, ob die Darstellung einem Elektroroller entspricht. So trainieren wir unsere zweite KI darauf, Bilder eines bestimmten Motivs zu erstellen und mithilfe einiger cleverer Algorithmen, wodurch die einzelnen Schritte der Bilderstellung effizienter in die Richtung des gewünschten Ergebnisses gelenkt werden.
Doch hier gelangen wir zu einem Problem. Unsere erste KI ist trainiert, Dinge auf Fotos zu erkennen. Die genutzten Daten enthielten also entweder einen Roller, oder sie enthielten keinen. Diese KI kann nun zwar einschätzen, ob ein von unserer zweiten KI erstelltes Bild die nötigen Muster enthält, um als Roller erkannt zu werden, nicht aber, ob das Bild dann tatsächlich wie das Foto eines Rollers aussieht. Dieser kleine, aber entscheidende Unterschied macht hier den Erfolg oder Misserfolg unserer generativen KI aus und um den zusätzlichen Schritt zu gehen, brauchen wir neue Daten.
Wie eine generative KI Schritt für Schritt näher an ihr Ziel kommt.
Um genau diese Daten soll es als Nächstes gehen.
Daten sind nicht gleich Daten
Wir wissen nun also, dass unsere KI eine riesige Menge an Daten zum Abgleich braucht. Doch ein wichtiges Puzzlestück fehlt uns hier noch. Bis jetzt sieht unsere KI ja ziemlich intelligent aus und kann Elektroroller auf Bildern erkennen, die wir ihr vorsetzen.
Aber bei den Daten, welche wir der KI gespeist haben, gehen wir davon aus, dass wir bereits wissen, welche Bilder einen Roller enthalten und welche nicht, um die KI entsprechend daran zu trainieren. Unser ganzer Datensatz muss bereits eingeordnet und kategorisiert sein. Für Millionen von Bildern stellt das eine Menge Arbeit dar. Eine Arbeit, die von Hand gemacht werden muss. Arbeit, die eine echte Intelligenz, nämlich menschliche, erfordert. Wir trainieren die KI schlussendlich darauf, genau diese Entscheidungsarbeit nachzuahmen.
Ähnlich sieht es nun bei unserem Bildgenerator aus. Hier brauchten wir noch eine Möglichkeit, dessen Genauigkeit zu verbessern. Wir müssen also herausfinden, welche der generierten Bilder tatsächlich wie Elektroroller aussehen und genau diese Entscheidung kann nur ein Mensch treffen. Also müssen wir Menschen anstellen, sich Unmengen an Bildern anzuschauen und zu bewerten, welche davon wie Elektroroller aussehen.
Oder aber wir setzen Menschen diese Bilder vor, wenn sie nicht einmal erwarten, gerade Beitrag zum Training einer KI zu leisten. Man nehme ein paar Bilder, wo man sich bereits sicher ist, ob sie einen Roller enthalten oder nicht, sowie ein paar, bei denen die Antwort noch offen ist. Diese setzt man einem Menschen vor, der gerade sein Menschsein beweisen soll, zum Beispiel um auf einer Webseite seine Anmeldung durchzuführen.
Das Captcha was mich bei einer Anmeldung erwartete und welches die Elektroroller als Thema für mein Beispiel inspirierte.
So passierte es mir, als ich gerade Recherche für diesen Artikel betrieb. Die allseits bekannten Captchas nutzen schon seit Jahren die Fähigkeiten ihrer Nutzer, um Bilder besser zu kategorisieren. Angefangen mit Text aus Projekten zur Buchdigitalisierung, weiter mit Bildern von Street View, auf welchen man Hausnummern, Zebrastreifen und ähnliches identifizieren sollte. Angekommen nun bei dem, was ich vor kurzem vor mir hatte. Offensichtlich von der KI generierte Bilder von Elektrorollern.
Diese Sicherheitsvorkehrungen gegen automatisierte Accounts sind nur eine der kostengünstigen Möglichkeiten, welche zum Kategorisieren von Daten für das Training von KI genutzt werden. Eine andere ist die Nutzung von billigen Arbeitskräften, oft in Ländern, in welchen die Löhne ohnehin vergleichbar niedrig sind. Solche Klickfabriken haben sich unter anderem in China und Indien zu einer regelrechten Industrie entwickelt, welche die KI Revolution der letzten Jahre mit den nahrhaften Daten versorgt, aus welchen stetig neue Errungenschaften hervorgebracht werden. KI funktioniert nur, indem sich zu ihrem Training das Hirn von Menschen zunutze gemacht wird.
Im zweiten Teil des Blogbeitrages werde ich darauf eingehen, woher die Daten für das KI-Training kommen. Außerdem wenden wir uns KI-generierten Texten zu und werfen einen kleinen Blick in die Zukunft.
Der Blogbeitrag stammt aus der Feder von Gastautor Stefan E., IT-Supporter, Physikstudent und KI-Observierer.
コメント