“Mit vier Parametern kann ich einen Elefanten einstellen und mit fünf kann ich ihn dazu bringen, seinen Rüssel zu bewegen.” (Natur 427). Damit spielt John von Neumann darauf an, dass mit genügend Parametern und einem komplexen Modell jede Art von Daten genau beschrieben werden kann. Und darin liegt das Problem der statistischen Modellierung. Ein Modell muss die Daten nicht nur gut beschreiben, sondern auch übertragbar und anwendbar bleiben. Wenn das Modell die gesammelten Daten vollständig beschreibt, ist eine Verallgemeinerung auf die Realität im Allgemeinen nicht möglich. Dieser Effekt wird als Overfitting bezeichnet. Overfitting ist ein häufiges Problem, insbesondere beim Data Mining (Machine Learning Overfitting und Neuronal Network Overfitting) und bei Regressionsmodellen. Underfitting hingegen bezieht sich auf Modelle, die Daten oder die Realität nicht genau genug beschreiben.
Als nächstes geben wir Ihnen einen Einblick in die komplexen Modellierungsprozesse. Zuerst erklären wir, was Overfitting und Underfitting bedeuten. Unsere Experten beraten Sie, wie Sie eine Überanpassung vermeiden können.
Overfitting ist ein weit verbreitetes Problem. UnserStatistischer Ratbetreuen Sie gerne individuell. Dafür stehen unsere Spezialisten zur Verfügung. NehmenKontaktmit den Leuten! Wir freuen uns auf Ihr Problem.
Dieser Artikel beantwortet die folgenden Fragen zum Thema Overfitting:
- Modellierung: Was ist zu beachten?
- Was versteht man unter Verallgemeinerung?
- Was ist Überanpassung?
- Was sind die Metriken zur Beurteilung von Overfitting?
- Gibt es auch eine Demontage?
- Beispiel Big Data: Was bedeutet es, maschinelles Lernen zu überfordern?
- Overfitting neuronaler Netze vermeiden: Welche Tipps gibt es?
Statistische Modellierung
Das Ziel vieler statistischer Auswertungen ist es, die Realität durch Modelle zu beschreiben. Die Modelle müssen leicht verständlich und anwendbar sein. Andererseits ist klar, dass die Modelle auch die Realität bestmöglich abbilden müssen.
Diese Aufgabe sinnvoll und zielgerichtet zu lösen, ist für jede Fragestellung eine neue und anspruchsvolle Aufgabe, die allein in der Hand des Statistikers liegt.
Die Erstellung eines vernünftig und sinnvoll anwendbaren Modells ist vergleichbar mit der Arbeit eines Schneiders: Der Schneider versucht, ein Kleidungsstück aus passendem und gut sitzendem Stoff herzustellen. Ebenso versucht man beim Erstellen von Modellen, die Daten mit einem geeigneten und gut passenden Modell zu „fitten“ – „fitten“.
Verallgemeinerung im maschinellen Lernen
Wenn es um Kleidung geht, können Sie leicht feststellen, ob Ihnen ein gewünschtes Kleidungsstück passt, indem Sie es anprobieren. Es gibt mehrere Möglichkeiten, um zu beurteilen, wie gut ein statistisches Modell die Daten beschreibt (Leistung).Qualitätsmessmodell. Anhand dieser Metriken lassen sich Aussagen darüber treffen, wie gut das Modell die Daten beschreibt.
Auch bei der Bekleidungsentwicklung ist es wichtig, dass die entworfene Kleidung möglichst vielen Kunden passt. Konfektionskleidung sollte nicht nur den (Maß-)Modellen passen, mit denen Maß genommen wird. Die Kleidung muss allen potenziellen Kunden passen!
Ebenso muss ein statistisches Modell nicht nur die beobachtete Stichprobe gut beschreiben. Es sollte auch für neue unbekannte Daten (Prognose) gelten. Zur Beurteilung der Übertragbarkeit dieses Modells werden Validierungsmethoden eingesetzt.
Validierungsverfahren, zum Beispiel Kreuzvalidierung oder X-fach-Validierung, finden Sie unterDatenverarbeitungMehrfachanwendung. Der gesamte Datensatz wird in Trainingsdaten und Testdaten unterteilt. Die Trainingsdaten werden verwendet, um ein Modell zu entwickeln. Das geschätzte Modell wird dann auf den Testdatensatz angewendet. Auf diese Weise kann schließlich die Leistungsfähigkeit des Modells bewertet werden.
Mit Hilfe des Validierungsverfahrens können Aussagen darüber getroffen werden, wie gut das Modell mit unbekannten Daten aus derselben Grundgesamtheit umgeht. Dieses Konzept wird Generalisierung genannt: die Anwendung statistischer Modelle auf reale Daten.
Es gibt zwei Hauptprobleme bei der Generalisierung: Underfitting und Overfitting.
Unterausrüstung
Um für möglichst viele Kunden die passende Kleidung zu schneidern, kam ein Schneider auf die Idee, zeltförmige Hüllen herzustellen. Dieses Kleidungsstück steht jedem, ob groß oder klein, dick oder dünn. Die Passform ist jedoch für alle Kunden sehr schlecht: Das Zelt öffnet sich für dünne Menschen, während übergewichtige Menschen nicht genügend Bewegungsfreiheit haben. Die Kleidung betont in keiner Weise die körperlichen Eigenschaften des potenziellen Kunden. Dieses Verfahren wird als Underfitting bezeichnet: ein Modell oder Kleidungsstück, das einfach und universell einsetzbar ist, aber nicht alle Daten oder Kunden ausreichend beschreibt bzw. „passt“.
Underfit beschreibt im statistischen Kontext, dass die Einflussgrößen die Zielgröße nicht gut genug beschreiben. Das statistische Modell zur Beschreibung der Daten ist sehr einfach (z. B. lineares Modell, nur eine Einflussgröße). Das Modell sagt also die Zielvariable nicht gut genug voraus. Die Gütemaße des Modells sind sehr gering. Die Qualität des Modells erreicht keine ausreichend hohen Werte. Aussagekräftige Vorhersagen sind daher nicht möglich.
Dafür gibt es in der Regel zwei Hauptgründe:
- Das Modell, also der funktionale Zusammenhang oder der im Data Mining gewählte Algorithmus passt nicht.
- Wesentliche Einflussfaktoren wurden nicht berücksichtigt.
Underfitting: Ein (sehr) einfaches Modell (hier y=5) wird auf die Daten angewendet. Die Folge sind hohe Prognosefehler (türkis).
Überanpassung
Das zweite Problem bei der Herstellung von Konfektionskleidung ist, dass die Kleidungsstücke zu eng an den Objekten anliegen, die sie früher im Atelier vermessen haben. Die Kleidung passt perfekt zu den Probanden und hebt die Körperform der gemessenen Personen perfekt hervor. Wenn jemand anderes dieses Outfit tragen würde, wäre es hier zu eng und dort zu locker, also würde es an jemand anderem insgesamt nicht gut aussehen.
In der Statistik spricht man von Overfitting (oder Overfitting), wenn das Modell auf die Trainingsdaten spezialisiert ist. Auf dem Trainingsdatensatz wird dann eine sehr hohe Modellqualität erreicht. Bei Anwendung auf Testdaten sind die Modellqualitätswerte deutlich geringer. Das Modell ist zu fit für die Trainingsdaten, sodass es nicht möglich ist, das Modell auf die Population zu übertragen (Verallgemeinerung).
Folgende Faktoren begünstigen eine Überanpassung:
- Kleine Anzahl von Beobachtungen im Trainingsdatensatz im Vergleich zu den Prädiktoren. Gerade im Data Mining ist das Overfitting des neuronalen Netzes hauptsächlich auf diesen Punkt zurückzuführen. mit KomplexNeuronale NetzeTausende von Parametern werden geschätzt!
- Verzerrung (Bias)Auswahl der Stichprobe aus der Grundgesamtheit
- Spezielles Overfitting Machine Learning tritt auf, wenn Modelle übertrainiert werden. Durch die wiederholte Aufteilung des gleichen Datensatzes in Trainings- und Testdaten werden die Modelle hinsichtlich der Modellqualität immer besser. Wird jedoch zu viel trainiert, beschreiben die Modelle nur die Trainingsdaten, die Übertragung auf die Bevölkerung scheitert.
Die Balance zwischen Overfitting und Underfitting
Die Kunst des Modellierens besteht darin, ein ideales Modell zu finden, das weder zu eng noch zu eng ist. Diesen Punkt zu finden, ist immer eine große Herausforderung. Erfahrung, Vorkenntnisse, Fachkompetenz und große Sensibilität sind wesentliche Eigenschaften, die dem Analysten helfen, ein gutes, stabiles und anwendbares Modell zu finden.
Optimales Modell zur Beschreibung der Daten: Modellkomplexität möglichst gering, Daten gut beschrieben, Vorhersagefehler gering
Overfitting ist eine große Herausforderung in der modernen Statistik. Meistens existieren bereits viele verschiedene Variablen, und zusätzliche Variablen können mit einfachen Transformationen berechnet werden. Andererseits sind Auswertungen zeitlich begrenzt. Die Ergebnisse sollen bis gestern vorliegen. Daher ist die Anzahl der Beobachtungen im Allgemeinen relativ gering. Die Rekrutierung neuer Beobachtungszeiten braucht Zeit. Diese Konstellation: wenige Beobachtungen, viele Variablen birgt bereits die Gefahr des Overfittings.
Overfitting und Underfitting: Vorhersagefehler in Bezug auf die Komplexität des Modells
Unsere Profi-Tipps: Wie vermeide ich Overfitting?
- Planen Sie ein ausreichend großes Zeitfenster ein:Zeit für ein unverzerrtes undVertreterProbenahme. Sie brauchen auch Zeit, um genügend Beobachtungen für die Modellierung zu sammeln: Als allgemeine Faustregel benötigen Sie mindestens 10 Beobachtungseinheiten pro kontinuierlicher Einflussvariable und 10 Beobachtungen pro Merkmal für kategoriale Merkmale. Wir unterstützen Sie gerne mit einem FachmannPlanen Sie die Anzahl der Fälle.
- Relevante Vorüberlegungen: Welche Variablen sind relevant? Gibt es bereits erprobte Verbindungen? Welche funktionalen Zusammenhänge sind technisch begründet?
- Schritt für Schritt:Auch wenn Computerprogramme dazu verleiten: Zunächst wird die Stichprobe beschrieben, dann werden bivariate Zusammenhänge und variable Abhängigkeiten untersucht. Nur so können verschiedene Modelle sinnvoll beschrieben werden.
- Teilen Sie den Datensatz aufTest- und Trainingsdatensatz: Dies ermöglicht es, die Qualität des Modells an Daten zu überprüfen, die nicht zur Schätzung der Modellparameter verwendet werden. Ist die Modellqualität auf dem Trainingsdatensatz deutlich höher als auf dem Testdatensatz, liegt Overfitting vor.
- Resampling-Methode, da die k-fache Kreuzvalidierung eine weitere Möglichkeit bietet, das Modell mit unbekannten Daten zu testen. Ebenso häufig lässt sich Overfitting Machine Learning entdecken.
- Werden die Modelle iterativ geschätzt, z.B. B. beim maschinellen Lernen, ein FrühgeborenesSicherungendes Algorithmus, um Overfitting entgegenzuwirken. Dies ist in der Regel durch Angabe der gewünschten Genauigkeit möglich (z. B. bei RapidMiner).
- Es gibt einige Methoden, die aModellvereinfachungKraft und kann somit einer Überanpassung entgegenwirken. Beispielsweise können Entscheidungsbäume gekürzt werden (Beschneidung). Auf diese Weise können Sie die Größe des Baums anpassen. Das Beschneiden führt zu kleineren Bäumen, die weniger auf die Trainingsdaten spezialisiert sind. In Regressionsmodellen können Strafterme eingeführt werden, die die Anzahl der Variablen und ihre Wechselwirkungen berücksichtigen. Eine Überanpassung des neuronalen Netzes kann mit Hilfe von vermieden werdenFällt herausTechnik angewendet wird. Jeweils eine Beobachtung wird zufällig aus dem Algorithmus ausgeschlossen. Dies wirkt sich auf alle anderen Knotenverbindungen aus. Nach mehrmaligem Gebrauch können die einzelnen Modelle wieder zu einem stabilen Modell zusammengesetzt werden.
Zusammenfassung:
Overfitting ist vor allem im Data Mining ein großes Problem, da die gefundenen Modelle auf die Trainingsdaten spezialisiert sind. Dadurch ist eine Übertragbarkeit auf die Bevölkerung nur eingeschränkt und mit großen Fehlern möglich. Hier sind einige Methoden, die verwendet werden können, um eine Überanpassung zu vermeiden (z. B. Überanpassung von neuronalen Netzwerken). Abhängig von Ihrem Problem beraten wir Sie gerne konkret zu den erforderlichen Schritten, um ein stabiles Modell zu erstellen. NehmenKontaktmit den Leuten. Wir freuen uns auf Ihre Herausforderung.
Weitere Informationen:
Oh elefante de John von Neumann