Das Verständnis von Algorithmen für maschinelles Lernen ist eine Herausforderung. Mit folgendem Text möchte ich einen Beitrag zu einem speziellen Thema leisten: Wie anders istAlgorithmen für maschinelles Lernenmit Interaktionseffekten?
Die folgenden maschinellen Lernalgorithmen werden betrachtet:
- Lineare Regression
- GAM = Verallgemeinertes additives Modell
- KNN = K nächste Nachbarn = k nächste Nachbarn
- Ein einzelner Entscheidungsbaum (rpart)
- Ein Random-Forest-Modell, das viele einzelne Entscheidungsbäume kombiniert
Die Daten: Boston
Wir verwenden die Boston-Daten, die in der Standardinstallation von R im MASS-Paket enthalten sind.
Bibliothek(MASA)Daten(Boston)str(Boston)
Die unabhängige Variable, die wir modellieren wollen (je nach Fragestellung: erklären oder vorhersagen), ist der Medianpreis von Eigentumswohnungen in 506 Bostoner Stadtteilen (Variablenname: medv). Das bedeutet, dass eine Analyseeinheit („Fall“, „Beobachtung“, Zeile im Datensatz) einem Bezirk entspricht.
Der Einfachheit halber verwenden wir nur zwei Prädiktoren = unabhängige Variablen: den Anteil der Bevölkerung mit niedrigem Status in Prozent (lstat) und Lage am Charles River (chas) mit den Werten no (kein Ort am Fluss) und yes ( Nachbarschaft liegt im Fluss).
(Video) Machine Learning-Algorithmen verstehen: Interaktionseffekte
Was sind Interaktionseffekte?
Kurz gesagt, der Einfluss einer unabhängigen Variablen auf eine abhängige Variable sinkt um einsInteraktion in unterschiedlichem Maße je nach Zustand einer anderen unabhängigen Variablen. Es ist einfacher, grafisch zu denken: Stellen Sie sich ein Streudiagramm mit einer kontinuierlichen unabhängigen Variablen auf der x-Achse und der abhängigen Variablen auf der y-Achse vor. Als zweiter Prädiktor steht eine kategoriale Variable mit zwei Werten zur Verfügung. Wir zeichnen die Regressionslinie für jedes dieser Merkmale. Ohne Interaktion sieht es so aus:
Hier ist der Code dafür:
library(dplyr)library(broom)library(ggplot2)library(caret)theme_set(theme_grey(base_size = 14)) # Schriftgröße erhöhen# Lineare Regression mit zwei unabhängigen VariablenBoston$chas