Machine Learning Basics
21.03.2019 | Robert Junklewitz | 9 min Lesezeit
merken
Stern Icon
Stern Icon
Briefumschlag Iconper E-Mail erinnern X Icon
Ladekreisel
Bitte geben Sie eine E-Mail Adresse ein!
Das Datum darf nicht in der Vergangenheit liegen!
Stern Icondiesen Artikel merken
Stern Icondieser Artikel ist auf der Merkliste

Trendthema Machine Learning – was steckt dahinter?

grüne Trennlinie

Immer wieder hört man, dass unsere Zukunft durch Künstliche Intelligenz (KI) und Machine Learning bestimmt wird. Dabei wird oftmals unterschätzt, wie häufig man schon heute im Alltag damit in Berührung kommt. Von Filmempfehlungen auf Netflix, autonom fahrenden Autos, Sprachassistenten wie Amazon Alexa bis hin zur Textkorrektur und -vervollständigung auf dem eigenen Smartphone hat Machine Learning schon einen großen Einfluss auf unser aktuelles Leben, sowohl privat als auch beruflich. Doch was genau versteht man eigentlich unter dem Begriff Machine Learning?

Was ist Machine Learning?

grüne Trennlinie

Obwohl in den Medien Künstliche Intelligenz und Machine Learning oft als Synonyme verwendet werden, handelt sich dabei tatsächlich um ein Teilgebiet der Künstlichen Intelligenz. Allgemein lässt sich Machine Learning bezeichnen als die Wissenschaft und auch in gewisser Weise die Kunst, Computer so zu programmieren, dass sie von Daten lernen. Sie nutzen vorhandene Datenbestände vor allem um darin Muster zu erkennen, um mit diesen Daten Prognosen zu stellen oder auch um Daten klassifizieren zu können. Die so gesammelten Erfahrungen werden verallgemeinert und lassen sich anschließend auf neue Problemstellungen anwenden, um diese zu lösen. Die Voraussetzung für das erfolgreiche Trainieren von Modellen ist das ausreichende Vorhandensein von Daten. Dabei gilt: Je größer die bereitgestellte Datenmenge zum Trainieren, desto besser ist das resultierende Modell und desto besser lässt es sich dann auch auf neue Daten anwenden. Entsprechend wird Machine Learning begünstigt durch den starken Anstieg des weltweiten Datenvolumens, auch bekannt unter dem Begriff Big Data. Lag es 2010 noch unter 20 Zettabyte, stieg das globale Datenvolumen 2018 bereits auf 33 Zettabyte an und soll bis 2025 auf etwa 175 Zettabyte anwachsen. Um sich diese Zahlen etwas besser vorstellen zu können, ein kleines theoretisches Beispiel: Würde man das gesamte Datenaufkommen auf DVDs speichern, hätte man einen Stapel DVDs der 23 Mal bis zum Mond reichen oder die Erde 222 Mal umfassen könnte.

Anführungszeichen
Maschinelles Lernen ist das Fachgebiet, das Computern die Fähigkeit zu Lernen verleiht, ohne explizit programmiert zu werden.
Arthur Samuel
1959

Werden alle Voraussetzungen erfüllt, sind Machine Learning Systeme beispielsweise in der Lage relevante Informationen zu finden und anschließend zusammenzufassen. Anhand der analysierten Daten können sie zudem Prognosen stellen oder Wahrscheinlichkeiten errechnen.

Welche Methoden und Use Cases gibt es?

grüne Trennlinie

Um diese Fähigkeiten zu erreichen, gibt es verschiedene Arten des maschinellen Lernens:

 

  • supervised learning
  • unsupervised learning
  • semi-supervised learning
  • reinforcement learning

supervised learning
Die am häufigsten verwendete Form stellt das überwachte Lernen (supervised learning) dar. Dabei lernt das System anhand von vorgegebenen Trainingsdaten und versucht Prognosen zu stellen. Bei diesen Trainingsdaten handelt es sich um gelabelte Daten. Das heißt, dass Menschen für die Eingabedaten die entsprechenden gewünschten Ausgabedaten hinzufügen müssen. Als Beispiel könnte man Blutbilder von Patienten als Input angeben und als Ausgabe, ob der Patient krank ist (Ja/Nein). Wie weit sich diese Aussagen dem richtigen Ergebnis nähern, erkennt der Algorithmus durch das Anwenden von Kostenfunktionen. Diese berechnen, wie weit die erwarteten Ergebnisse sich von den berechneten Ergebnissen unterscheiden. Anhand des Feedbacks der Kostenfunktionen, versucht der Algorithmus iterativ seine Parameter so anzupassen, dass sich ein möglichst kleiner Abstand zwischen erwarteten und berechneten Ergebnissen ergibt. Durch das Training entsteht ein Modell, welches dann auf weitere unbekannte Daten angewandt werden kann. Überwachtes Lernen wird hauptsächlich genutzt, um Prognosen anhand unbekannter Daten zu stellen oder um Daten zu klassifizieren.

Ein besonders typisches und bereits etabliertes Beispiel für überwachtes Lernen ist der Spam-Filter. Einer der Faktoren ist dabei die Überprüfung eingehender E-Mails auf eine Reihe von Schlüsselwörter. Wenn die Anzahl an Schlüsselwörtern einen definierten Schwellwert übersteigt, gilt es als Spam und wird als solche eingestuft. Das ist allerdings eine sehr mühsame und zeitaufwändige Arbeit, wenn man bedenkt, dass sich diese Schlüsselwörter auch unaufhörlich ändern und man die Regeln grenzenlos erweitern müsste. Durch den Einsatz von Machine Learning muss man dem Algorithmus nur genügend Beispiele für Spam-E-Mails übergeben. Dieser erkennt dann selbstständig Muster und kann somit zwischen Spam und regulären E-Mails unterscheiden.

Durch derartige Automatisierungen lassen sich auch in anderen Anwendungsbereichen Prozesse optimieren und deutliche Zeitersparnisse erzielen, wie beispielsweise in der Medizin. Im Bereich der Diagnose werden derzeit durch den Einsatz künstlicher Intelligenz erstaunliche Erfolge erzielt. Anhand von etwa 200.000 Bildern erlernte ein Algorithmus Tumore besser zu erkennen als Ärzte und sogar gutartige von bösartigen zu unterscheiden. Auch auf dem Gebiet der Früherkennung von Alzheimer unterstützt KI bereits die Ärzte, indem die Systeme kleinste Veränderungen auf Patienten-Scans erkennen und somit den Ausbruch der Krankheit im Schnitt sechs Jahre vor der ärztlichen Diagnose prognostizieren können.

unsupervised Learning
Unüberwachtes Lernen wird im Gegensatz zum überwachten Lernen hauptsächlich dafür verwendet, unbekannte Muster in bestehenden Daten zu erkennen (Clustering). Häufig wird es auch zur Dimensionsreduktion genutzt, um Attribute in Datensätzen zu reduzieren. Müssen Machine Learning Algorithmen zu viele Attribute mit einberechnen, können sie zu träge werden und das Finden einer geeigneten Lösung wird dadurch erschwert. Daher versucht man die Attribute soweit zu reduzieren, dass man nur noch relevante Informationen zum Lernen verwendet. Der Unterschied vom unüberwachten Lernen zum überwachten Lernen ist, dass man keine gelabelten Daten hat. Daher muss der Algorithmus die Struktur der Daten selbstständig ergründen und Beziehungen, Muster oder Zusammenhänge (falls vorhanden) zwischen den enthaltenen Daten ermitteln. Zum Einsatz kommt unüberwachtes Lernen vor allem bei der Text- und Sprachanalyse sowie der automatischen Bilderkennung.

semi-supervised learning
Überwachte und unüberwachte Lernmethoden lassen sich zudem auch kombinieren. Ein Beispiel dafür ist die Personenerkennung auf Bildern, wie es die Fotoanwendungen auf iOS und Android realisieren. Durch unüberwachtes Lernen können diese Anwendungen zusammenfassen, welche Bilder zu einer bestimmten Person gehören (Clustering). Allerdings muss noch manuell der Name der Person von einem Menschen angegeben werden, welches wieder durch überwachtes Lernen realisiert wird.

reinforcement learning
Die vierte Variante ist verstärkendes Lernen (reinforcement learning), welches sich am Lernverhalten des Menschen orientiert. Hierbei interagiert das System mit seiner Umgebung und lernt durch den Einsatz von Belohnungs- und Bestrafungsfunktionen. Je besser die Interaktion, desto größer das Belohnungssignal. Reinforcement learning findet vor allem im Bereich der Robotik verstärkt Verwendung.

Ein bekanntes Beispiel für diese Methode ist AlphaGo von Google, welches sich das Spiel Go selbst beibrachte. Dieses 3000 Jahre alte Brettspiel ist trotz der einfachen Spielregeln um ein Vielfaches komplexer als Schach. Die Anzahl möglicher Partien liegt im Schach bei 10 hoch 120, wohingegen sie im Go schon bei 10 hoch 170 liegt. Zu Beginn wurde bei AlphaGo überwachtes Lernen eingesetzt, um dem Algorithmus die Regeln des Spiels beizubringen. Nach der Methode des reinforcement learnings erlernte AlphaGo dann das Spiel, indem es tausende von Spielen analysierte und dann mehrfach gegen sich selbst antrat. Neuere, verbesserte Versionen verzichten mittlerweile komplett auf überwachtes Lernen und werden nur noch über verstärkendes Lernen trainiert. AlphaGo war das erste Computer Programm, das einen professionellen menschlichen Go-Spieler besiegte. 2016 trat es dann gegen den 18-maligen Go-Weltmeister Lee Sedol an und gewann mit 4:1 Spielen.

Die Fortschritte im Bereich der KI und speziell im Machine Learning wurden durch die technologischen Errungenschaften der letzten Jahrzehnte stark beschleunigt. Computer wurden immer leistungsfähiger und durch Cloud-Technologien wie Microsoft Azure oder AWS können die unterschiedlichen Machine Learning Modelle viel zeiteffizienter trainiert werden.

Fazit

grüne Trennlinie

Machine Learning ist ein bedeutendes Teilgebiet der Künstlichen Intelligenz, welches vorhandene Datenbestände nutzt, um darin Muster zu erkennen und dieses künstlich generierte Wissen zur Problemlösung einzusetzen. Um die Algorithmen daraufhin zu trainieren, gibt es verschiedene Lernmethoden, welche hier im Magazin in weiterführenden Artikeln detaillierter betrachtet und erläutert werden: supervised learning, unsupervised learning, semi-supervised learning und reinforcement learning. Genutzt werden die einzelnen Methoden von Wissenschaftlern und Unternehmen unterschiedlichster Branchen und Fachgebiete.

Autor Profilbild

Robert Junklewitz

grüne Trennlinie