Es gibt wohl kaum einen Bereich, bei dem Erwartung und Wirklichkeit soweit auseinander liegen als bei Daten und Machine Learning. Bei jeder Demo und Präsentation, die ich gesehen habe, sieht alles so einfach aus. Umso grösser ist nachher die Enttäuschung.

Der Aufbau einer qualitativ hochwertigen Machine Learning Anwendung ist eine komplexe Aufgabe, aber es gibt einen Aspekt, der am meisten unterschätzt wird: Datenaufbereitung.

Daten können in verschiedenen Formen vorhanden sein. Einige können strukturiert sein (wie Datenbanken oder Excel-Tabellen), andere können mehr oder weniger unstrukturiert sein (wie Logfiles, Dokumente oder Bilder).

Egal, welche Daten Sie verwenden oder welche Anwendung Sie realisieren – die Vorbereitungsarbeiten werden immer (keine Ausnahme!) bis zu 80% der Zeit und des Aufwandes in Anspruch nehmen.

Notwendige Arbeiten sind z.B. Formatierung und Cleansing («Reinigung»). Bei der Formatierung werden die verfügbaren Daten zuerst in das gewünschte Format konvertiert. Möglicherweise benötigen Sie die Daten in einer Datei, aber sie liegen in verschiedenen Datenbanktabellen verstreut. Oder Sie haben ein Feld für das Datum, benötigen aber den Wochentag. Beim Cleansing werden die Daten auf Korrektheit und Konsistenz überprüft, fehlende Daten (soweit möglich) ergänzt oder redundante Daten entfernt.

Das ist alles pures Handwerk, welches nicht nur technisches Wissen benötigt, sondern auch ein gutes Verständnis des Geschäfts, zu dem die Daten gehören. Auch wenn diese Arbeiten leider oft als unnötig betrachtet werden: Je sorgfältiger Sie diese erledigen, desto besser werden die Resultate am Ende des Tages sein.