Daten-Mythen: Garbage in, Quality out

Machine Learning ist heutzutage das wichtigste Feld der Künstlichen Intelligenz und wird bald überall eingesetzt werden, wo eine relativ grosse Menge an Daten verfügbar ist. Vereinfacht gesagt ist Machine Learning eine Sammlung von Algorithmen, welche aus Daten „lernen“ um Entscheidungen zu treffen und Prognosen zu machen, ohne dass diese explizit programmiert wurden.

Anwendungsbeispiele gibt es bereits sehr viele. Die Empfehlungssysteme auf Netflix, YouTube oder Amazon, welche in der Lage sind, richtig zu entscheiden (zumindest oft), was Sie sehen oder kaufen möchten. Die Home Assistenten wie Amazon Echo oder Google Home, die Ihren Tag planen oder langsame Musik spielen, wenn Sie ein bisschen „emotional“ sind.

Während diese Anwendungen wie „Zauberei“ wirken, sind sie in Wahrheit weit davon entfernt.

Machine Learning Anwendungen hängen von der Relevanz und Qualität der Daten ab, die durch die Algorithmen analysiert werden. Wenn die Daten ungenau oder irrelevant sind, sind es die Prognosen und Entscheidungen ebenfalls. So einfach ist das.

Sagen wir, Sie möchten mittels Machine Learning Betrug erkennen. Kein Algorithmus der Welt kann das einfach „out-of-the-box“. Das heisst, Sie müssen dem System anhand von „guten“ und „schlechten“ Daten konkret beibringen, wie man diese erkennt und unterscheidet. Je schlechter die Datengrundlagen sind, desto schlechter die Erkennung.

Ebenso muss das Dataset genügend gross sein. Zum Beispiel wird eine Woche Betrieb bei einem Home Assistenten nicht reichen, um Ihre Gewohnheiten anhand von wiederkehrenden Mustern zuverlässig zu erkennen und daraus abzuleiten, was Sie gerade interessieren könnte.

Natürlich kann Machine Learning auch keine Informationen „erfinden“, die nicht da sind. Nehmen wir an, Sie möchten eine intelligente Software entwickeln, die Bauern berät, welches Getreide sie in einer bestimmten Region anpflanzen sollen. Wenn Sie dabei keine historischen Daten über die Bodenbeschaffenheit oder klimatischen Bedingungen haben, wird das vermutlich nicht funktionieren.

Schreiben Sie einen Kommentar