Worum es geht

Decision Trees, Regression Trees, Classification Trees, Boosted Trees, Rotation Forest, Random Forest.. Um vor lauter Bäumen noch den Machine Learning Wald zu erkennen geben wir Ihnen hier eine Übersicht über die wichtigsten Begriffe:

Daten

Daten können in strukturierte und unstrukturierte Daten unterschieden werden. Strukturierte Daten sind zum Beispiel Sensordaten im Textformat oder kaufmännische Kennzahlen aus einem Datawarehouse. Bilder und Sprache sind hingegen Beispiele für unstrukturierte Daten. Beide Arten von Daten können mittels überwachten oder unüberwachten maschinellen Lernens ausgewertet werden.

Maschinelles Lernen

Maschinelles Lernen versucht unter Zuhilfenahme von Statistik, Informatik und künstlicher Intelligenz Wissen aus Daten zu extrahieren. Die in den letzten Jahren erzielten bahnbrechenden Erfolge sprechen dabei für sich. Verwendet man Techniken des maschinellen Lernens um nicht unmittelbar ersichtliche Muster in großen Datenmengen zu finden nennt man dies auch Data Mining. Bei der klassischen Programmierung wird ein erdachtes Modell vom Programmierer in Code umgewandelt, welcher die Eingaben in Ausgaben umwandelt. Beim maschinellen Lernen wird diese Herangehensweise jedoch umgedreht: die Maschine "erlernt" das Modell selbst anhand von Ein- und Ausgabewerten. "Machine learning is the science of getting computers to act without being explicitly programmed". Der Vorteil an diesem Ansatz liegt darin, dass auch neue -zuvor nicht bekannte- Eingaben vom System korrekt gelabelt werden können, ohne dass dies explizit programmiert werden muss.

Überwachtes maschinelles Lernen

Die Idee hinter dem überwachten Lernen ist, dass es zu Ihren Daten bereits richtige Antworten aus der Vergangenheit gibt. Zum Beispiel haben Sie womöglich bereits Umsätze in der Vergangenheit generiert und wollen daraus eine Extrapolation in die Zukunft ableiten. Dafür könnten Sie den Ansatz der linearen Regression verwenden. Wollen Sie stattdessen Bilder Ihres Produktionsprozesses in Gut- und Schlechtteile kategorisieren so nutzen Sie die logistische Regression. Bei einer Einteilung zum Beispiel eines Risikos in mehr als zwei Klassen erweitert man die logistische Regression entsprechend multinominal. Auch Produktempfehlungen für Ihre Kunden sind ein häufig verwendeter Ansatz, dann in Form von Matrix Factorization.

Unüberwachtes maschinelles Lernen

Nutzen Sie die Python und R Frameworks des unüberwachten Lernens um zum Beispiel durch Clusterbildung Ihrer multidimensionalen Daten auf unbekannte Zusammenhänge aufmerksam gemacht zu werden oder außergewöhnliche Datenpunkte zu isolieren. Im Gegensatz zum überwachten Lernen müssen Ihre Daten nicht markiert sein, um daraus Erkenntnisse zu gewinnen.

Transfer Learning: standing on the shoulders of giants

Transfer Learning ist die Nutzung bereits vortrainierter Modelle, vor allem um Aufwand, Zeit und Kosten in der Trainingsphase zu sparen. Dies hat sich vor allem bei Projekten mit Bilddaten als sinnvoll herausgestellt. Denn anstatt das Rad neu zu erfinden kann man bei ähnlichen Bildobjekten auf bereits erfolgreich trainierte Modelle zurückgreifen. Ein Ansatz, der sich auch bei einer nur geringen Anzahl an Trainingsbildern bezahlt machen kann.

Datengetriebenes Unternehmen

Die Möglichkeiten auf dem Gebiet des maschinellen Lernens sind mannigfaltig und die Entwicklungen rasant. Ob Sie bereits Analysten, Data Engineers, Data Scientists, Chief Data Officers und Statistiker fest in Ihre Unternehmensstruktur eingebunden haben oder noch ganz am Anfang stehen: nutzen Sie die Chance, die Ihnen der "sexiest job of the 21st century" (Harvard Business Review: Data Scientist) bietet, denn:

Wo die Reise hin geht

“By 2020, some 50 billion smart devices will be connected, along with additional billions of smart sensors, ensuring that the global supply of data will continue to more than double every two years” (McKinsey Quarterly: Straight Talk About Big Data). Das an dieser McKinsey Studie eigentlich überraschende ist jedoch, dass heutzutage schätzungsweise nur ca. 1% dieser Daten überhaupt ausgewertet werden. Daran etwas zu ändern haben wir uns zum Ziel gesetzt.

Unser Angebot an Sie

Wir unterstützen Sie in der Erkundung, Interpretation und Kommunikation möglicher Muster in Ihren Daten. Zu diesem Zwecke bieten wir Ihnen sowohl unsere Dienste als Service an als auch Hilfe zur Selbsthilfe durch zielgerichtete Schulungen. Auf dem richtigen Nährboden werden Sie erfolgreich Kulturen für Datenanalyse anzüchten können. Werfen Sie mit uns zusammen einen Blick auf die Data Science "Petrischale":

Tutorials

Warenkorbanalysen mit Sparks FP-Growth: Lernen Sie wie man mit Hilfe von Frequent Pattern Mining Warenkörbe hinsichtlich ihrer Zusammensetzung systematisch untersucht (Medium link).
Empfehlungssysteme: Artikel-Kunde Collaborative Filtering: Sparsity, Similarity, und implizit binäres Collaborative Filtering Schritt für Schritt erklärt (Medium link).

Überzeugen Sie sich

Profitieren Sie von unserem Nutzen für Sie und rufen Sie uns an oder schreiben uns eine eMail. Wir freuen uns auf Sie!