· Einführung

KI für alle

Google, Facebook und Co sind führend im Machine Learning. Die Tech-Giganten investieren schier grenzenlose Ressourcen in die Datensammlung und -verarbeitung. Auch in der Forschung sind diese Firmen vorne mit dabei. Die neusten Modelle und Technologien sind hauptverantwortlich für einen Grossteil der Milliardenumsätze. BERT, ein bahnbrechendes Sprachmodell von Google, oder PyTorch, eine Deep Learning Bibliothek von Facebook, sind zwei Beispiele von vielen.

Damit können wir Normalsterblichen aber auch KMUs nicht mithalten. Wir haben weder die Daten, noch die GPUs und schon gar nicht die finanziellen Mittel. Andrew Ng, die Koryphäe im Machine Learning, will künstliche Intelligenz allen zugänglich machen.

We need data-centric AI tools and principles to make AI useful for everyone.

Andrew Ng

Milliarden von Besuchern generieren eine immense, stetig wachsende Datenflut – der Traum für jeden Data Scientist. Aber da müssen wir realistisch bleiben: Nicht jede Firma birgt diese Potential. Aber trotzdem ist viel möglich. Andrew Ng will mehr mit weniger tun. Das Zentrale ist das Verständnis von Mustern und Trends in kleineren Datensätzen.

Datenqualität

Gezielte Vorarbeit im Bereich der Datenbereinigung zahlt sich aus: Ganz nach dem Motto «shit in, shit out». Eine umfassende Analyse der Rohdaten erlaubt es, die Datenqualität abzuschätzen. Dies dient als Grundlage für eine systematische und selektive Optimierung. Ist die Datenqualität ausreichend, kann ein Modell auch mit wenig Daten lernen. Es gilt; je weniger Daten, umso wichtiger die Qualität.

Modell vs. Daten

Konventionelle Big Data Ansätze in der künstlichen Intelligenz sind nach wie vor sehr erfolgreich. Ist der Datensatz beschränkt, gibt es aber geeignete Alternativen. Ein AI System besteht, vereinfacht gesagt, aus einem Modell (Code / Algorithmus) und Daten. Ist die Leistung des Systems nicht zufriedenstellend, gibt es zwei «Stellschrauben». Entweder man verbessert das Modell oder die Daten.

AI Sytem = Code + Data

An welcher Schraube soll nun gedreht werden? Die Aufgabe eines ML Modells ist es, ein Muster zu finden. Im einfachsten Fall ist das eine Linie.

Bild 1: Grosser Datensatz
Bild 2: Kleiner Datensatz ohne Ausreisser
Bild 3: Kleiner Datensatz mit Ausreissern

Bild 1 zeigt einen grossen Datensatz mit vielen Datenpunkten. Auch wenn die einzelnen Punkte teilweise weit auseinander liegen (Ausreisser), ist ein klarer Trend erkennbar. Je weniger Punkte im Datensatz vorhanden sind, desto wichtiger ist es, dass wenig bis keine Ausreisser vorhanden sind (Bild 2). Ansonsten ist es schwierig die korrekte Linie zu finden (Bild 3). Die Ausreisser können dazu führen, dass die falsche Linie gewählt wird und das Modell dadurch schlechte Empfehlungen berechnet.

Dieses Beispiel zeigt, dass durch eine gezielte Optimierung der Datenqualität bessere Entscheidungen getroffen werden können, ohne dass ein komplexeres Modell trainiert werden muss.

Fazit

Mit grossen Datensätzen erreichen Tech-Giganten viel, beinahe Unglaubliches. Aber auch kleine Datensätze haben grosses Potential. Hier ist wichtig, dass die Daten die erforderliche Qualität haben und für den Anwendungsfall geeignet sind. Eine saubere Datenpotentialanalyse zu Beginn gibt Auskunft darüber, was von einem gegebenen Datensatz erwartet werden kann. Und auch, wo im Datensatz es Optimierungspotential gibt. Im Machine Learning ist die Datenqualität ein Hauptkriterium: Gezielte Verbesserung der Datenqualität erzielt oftmals bessere Resultate als komplexere Modelle.

Wie kannst du profitieren?

Bist du dir nicht im Klaren darüber, wie es mit der Qualität deiner Daten aussieht? Wir helfen dir: Unsere Analyse hinsichtlich Qualität und Potential schafft Gewissheit.

Verfügst du über einen Datensatz von guter Qualität, ist grosses Potential da. Ein weiterer wichtiger Aspekt ist die hohe Verfügbarkeit von vortrainierten Modellen. Wir optimieren sie ohne grossen Aufwand für deinen Anwendungsfall. So nutzt du die Vorarbeit der Tech-Giganten für dich.

  • artificialintelligence
Share:
Zurück zum Blog