Lineare Regression

Willkommen zu einer Einführung in das Themenfeld der linearen einfachen und multiplen (mehrfach) Regression! Im Folgenden lernst Du die Grundidee hinter Regressionen, was eine OLS-Schätzung ist, die Errechnung und Interpretation der Regressionskoeffizienten. Zu Guter Letzt geht es um die Güte unseres Regressionsmodells bzw. unserer Schätzung mittels des `R^2` – Maßes.
Unser Ziel bei linearen Regressionen ist es, einen vermuteten Zusammenhang zwischen dem unabhängigen Merkmal („Unabhängige Variable“) X und dem abhängigen Merkmal („Abhängige Variable“) Y zu untersuchen und mittels einer Regressionsgerade darzustellen. Wie so oft starten wir hierbei mit einer beliebigen Datenlage, die eine Punktwolke ergibt:

Lineare Regression 1

Um den Zusammenhang darzustellen, müssen wir an zwei grundsätzliche Annahmen denken:
Erstens, ist es nahezu ausgeschlossen, in der Realität einen perfekten Zusammenhang zu beobachten: Die Punkte der Datenlage können nicht alle mit einer Gerade verbunden werden, da Abweichungen vorliegen. Aus diesem Grund könnten wir zwar eine ungerade Regressionslinie zeichnen, die alle Punkte verbindet und abschnittsweise Zusammenhänge beziffern, aber für die Gesamtbetrachtung wollen wir am Ende der Regressionsanalyse genau eine(!) Regressionsgerade aufstellen.
Da sich die Punkte jedoch nicht alle mit einer Gerade verbinden lassen, müssen wir bestehende Abweichungen der Punkte von einer Linie tolerieren: Der Fehlerterm `epsilon_i` (auch genannt Residuum).

Definition

Der Fehlerterm `epsilon_i` (auch genannt Residuum) erklärt alle Abweichungen jedes einzelnen Punktes der Datenlage von der Regressionsgerade. Oft wird er auch als `u_i` bezeichnet.


Unser Ziel ist es nun, eine Gerade zu zeichnen, die alle Punkte verbindet und sich aufgrund ihrer linearitätsvermutung mit folgender Gleichung darstellen lässt:
`y_i =alpha+betax_i +epsilon_i, i=1,...,n`

Wie in jedem anderen linearen Gleichungssystem auch, stellen die Parameter `alpha` den Y-Achsenabschnitt und `beta` die Steigung der Regressionsgeraden dar. `epsilon_i` beziffert (wie oben besprochen) die Abweichung der Punkte von der aufgestellten Gerade.

Variablen

`y_i` gibt den Y-Wert bei einem beliebigen X Wert an
Der Parameter `alpha` gibt den Y-Achsenabschnittswert bei X=0 an
Der Parameter `beta` gibt die Steigung der Regressionsgerade an
Der Fehlerterm `epsilon_i` gibt die Abweichung eines jeden Punktes zur Regressionsgerade an


Nun kommt aber noch eine zweite, sehr wichtige und spätestens für die Klausur relevante Annahme hinzu: Wir können niemals die wahren Parameter schätzen. Diese Aussage mag banal klingen, aber sie sorgt dafür, dass unsere Parameter allesamt einen Hut (engl. hat) aufgesetzt bekommen, um zu signalisieren, dass die Parameter geschätzt sind:

`hat y_i = hat alpha + hat beta x_i + hat epsilon_i, i=1,...,n`

Merke

In der Klausur immer auf die Kennzeichnung geschätzter Parameter achten!


Bei der linearen Regression unterscheiden wir zwischen der einfachen Regression mit einer unabhängigen Variable und der (multiplen) Mehrfachregression mit mehreren unabhängigen Variablen. Das Schöne für uns: Die Errechnung der Parameter und die Interpretation dieser ändert sich jedoch nicht dadurch, dass eine weitere Variable hinzukommt (Interaktionseffekt und Multikorrelation der unabhängigen Variablen ausgenommen). Da sich eine Mehrfachregression jedoch nur schwer grafisch darstellen lässt (Vektorenpfeile im 3-Dimensionalen Raum), betrachten wir im Folgenden die Einfachregression.

Formel

Gleichung der linearen Einfachregression
`y_i = alpha+betax_i +epsilon_i, i=1,...,n`

Gleichung der linearen Mehrfachregression

`y_i =alpha+beta_1 x_i+ beta_n x_i +epsilon_i, i=1,...,n`


Zeichnen der Regressionsgerade – Die Methode der Kleinsten Quadrate (OLS)

Nach der ganzen theoretischen Umschreibung und dem Aufstellen von Annahmen wollen wir nun auch endlich erste Ergebnisse sehen. Wir haben gesagt, dass eine Regressionsgerade innerhalb der Punkte so aufgestellt werden soll, dass sie möglichst Effizient ist, ergo die Abweichungen der Punkte zur Gerade minimiert: Diese logische Grundidee wird durch die Methode der Kleinsten Quadrate umgesetzt.

Definition

Methode der Kleinsten Quadrate (engl. OLS für Ordinary Least Squares) beschreibt die Regressionsgerade, die alle Punkte so verbindet, dass die Summe der Quadrierten Abweichungen (Fehler) möglichst gering ist.


Eine Regressionsgerade, welche die Summe aller quadrierten Fehler `hat epsilon_i^2=(y_i - hat y_i )^2` minimiert, ist die effizienteste aller möglichen Regressionsgeraden.

Lineare Regression 2

Um sichtbar zu machen, was wir versuchen zu minimieren schauen wir uns den 5. Punkt der Datenlage an. Hier haben wir den größten Fehlerterm, denn der wahre Wert (in Grün gehalten) ist am weitesten von dem geschätzten Wert der Regressionsgerade (auf der gelben Regressionslinie) entfernt.

Berechnung der Regressions-Parameter im OLS Ansatz

Statistik wäre nicht Statistik, wenn wir die Parameter der Regressionsgerade nicht auch berechnen könnten. Parallel zur Analysis in Mathe müssen wir hierfür nur wenige Schritte und Regeln bei der Umformung beachten und erhalten folgende Formeln:

Formel

`hat alpha =bary - hat beta barx`

`hat beta = S_(xy)/S_x^2 = (sum_(i=1)^n(x_i - barx)(y_i - bary))/(sum_(i=1)^n(x_i - barx)^2)`


Merke

Wenn Du Fragen zur Berechnung der Parameter hast, kurz vor der Klausur stehst und dringende Baustellen schließen willst, dann schau doch mal in unser Crashkursangebot und finde den geeigneten Kurs in Deiner Stadt!


Interpretation der Parameter

So langsam kommen wir unserem Ziel näher: Wir können mittels der Parameter, die wir errechnet haben und der Regressionsgerade interpretatorische Aussagen über den Einfluss von X auf Y treffen. Durch das Einsetzen der Parameter in die Formel erhalten wir für jeden X Wert einen Y Wert. Ein kleines Beispiel hierfür ergibt sich aus der Frage, ob es einen Zusammenhang zwischen der Temperatur und dem Eisverbrauch gibt: Da die Temperatur (zumindest auf kurzfristiger Sicht) nicht abhängig von momentanen Faktoren ist, der Eisverbrauch aber schon können wir die unabhängige (Temperatur) und die abhängige (Eisverbrauch) Variable festlegen. Angenommen wir erhalten diese Regressionsgleichung

`Y_(Eisverbrauch) =0.5 + 1.2 X_(Temperatur)`

Bei einer Temperatur von 0 Grad sind nur wenige bereit, ein Eis zu Essen. Bei einem Y-Achsenabschnitt von 0.5 gibt es aber nichtsdestotrotz ein paar Eisfanatiker, die selbst im Gefrierbereich Speiseeis konsumieren. Je wärmer es nun wird, desto eher steigt oder sinkt der Eisverbrauch?

Ganz klar: Er steigt. Wie der positive `beta` Parameter von 1,2 vermuten lässt, steigt der Eisverbrauch pro hinzugewonnenen Grad um 1,2. Während bei 10 Grad insgesamt 12,5 Eis gekauft werden (`Y_(Eisverbrauch) =0.5 + 1.2 xx 10`) ist der Eisverbrauch im Hochsommer jenseits der 40 Einheiten.

Wer im Kurs ein wenig aufgepasst hat, der wird erkennen, dass unser Beispiel zumindest in einer Annahme sehr fragwürdig ist: Der Linearität. Aus Erfahrung wissen wir, dass man erst ab 20 Grad Eis konsumiert und je wärmer es wird desto mehr Eis auf der Speiseliste steht. Dementsprechend könnte auch eine exponentielle Verteilung vorliegen, die nicht durch unsere lineare Regressionsgleichung erfasst wird. Trotzdem: Wir wissen jetzt, wie man Parameter ausrechnet und sinnvoll interpretiert.

Die Güte unserer Regressionsgeraden

Zu guter Letzt wollen wir noch über die Güte einer Regressionsgerade sprechen. Wir stellen uns nämlich nicht nur die Frage, was die formal effizienteste Regressionsgerade ist (gewährleistet durch die OLS Methode), sondern auch, ob diese Gerade wirklich die Punkte verbindet. Es geht also darum herauszufinden, wie viel Abweichung der Punkte vom Mittelwert erklärt werden kann, und welche eben nicht.

Um diese Einschätzung zu treffen müssen wir die Streuung der Punkte vom Mittelwert klassifizieren: Die Gesamtstreuung der Punkte vom Mittelwert wird unterteilt durch die Streuung, die durch das Modell erklärt werden kann (das ist das was wir maximieren wollen) und der Streuung, die der Summe der quadrierten Fehler (das was wir nicht erklären konnten) entspricht.

Formel

Streuungszerlegung
`sum_(i=1)^n (y_i - bary)^2 = sum_(i=1)^n (hat y_i - bary)^2 + sum_(i=1)^n (y_i - hat y_i)^2 `

`sum_(i=1)^n (y_i - bary)^2` ist die Gesamtstreuung der Daten
`sum_(i=1)^n (hat y_i - bary)^2` der Teil der Streuung, der vom linearen Modell erklärt werden kann
`sum_(i=1)^n (y_i - hat y_i)^2` ist die Summe der quadrierten Fehler nach Anpassung der Geraden


Merke

Eine Gerade ist „gut“, wenn das lineare Modell einen Großteil der Gesamtstreuung erklärt.
`R^2=(sum_(i=1)^n (haty -bary)^2)/(sum_(i=1)^n(y_i -bary)^2) `


Dieser Faustformel folgend liegt eine gute Beschreibung der Daten durch unsere Regressionsgerade vor, wenn `R^2` gegen 1 geht. Es gibt hierbei keine wissenschaftliche Konvention, nach der ein Regressionsmodell als gut bezeichnet wird, denn der Wert hängt auch von der Anzahl der unterschiedlichen Variablen und der Messgegenstände ab. Wenn `R^2` gleich 0 ist, erklärt unser Regressionsmodell keine Punktverteilung aus unserer Punktewolke. Entgegengesetzt ist ein `R^2` Wert von 1 ein Anzeichen für eine exzellente (aber in der Realität niemals erreichbare) Regressionsgerade.

Das war die kurze Einführung in die lineare Regression. Hier findest Du noch ein kleines Video, welches die Einführung in lineare Regressionen näher bringen soll:



zurück zur Übersicht