Konfidenzintervall

Willkommen zu einer Einführung in das Themenfeld der Konfidenzintervalle! Im Folgenden lernst Du die Grundidee hinter Konfidenzintervallen kennen, was die Sigma-Regel sein soll und zudem, wie sich Konfidenzintervalle für das Testen von Hypothesen eignen.

Ob in der Produktion von Schokoriegeln oder der Begutachtung von Klausurdurchschnitten einer Statistik Prüfung: Durch den Mittelwert einer Stichprobe haben wir gelernt, Aussagen über ebendiese Stichprobe zu treffen. Das ist super, aber statistisch und damit für zum Beispiel die Produktionsprozesse relevant wird es erst durch das Schließen von den bekannten Werten aus der Stichprobe (Arithmetisches Mittel und Standardabweichung) auf den „wahren“ Mittelwert in der Population, auch genannt µ (Erwartungswert). Manchmal können wir jedoch keine Punktschätzung vornehmen, sondern müssen ein Intervall abschätzen, welches mit einer bestimmten Wahrscheinlichkeit den wahren Wert überdeckt. Für all das benötigen wir Konfidenz- oder auch genannt Vertrauensintervalle.
Die Grundidee hierbei ist einfach: Wir ziehen beliebig viele Stichproben und stellen Konfidenzintervalle auf, die den wahren Wert erhalten soll(t)en.

Konfidenzintervall 1

Angenommen wir wüssten, wo der wahre Mittelwert liegt, so haben von unseren 10 Konfidenzintervallen in der Grafik 8 den Wert innerhalb Ihres Intervalls. Aber eben nicht alle Intervalle, die wir auf Basis einer Sample-Schätzung erhalten, bilden diesen Wert in Ihren Reihen ab.

Merke

Konfidenzintervalle basieren auf Stichproben und decken zu einer bestimmten Wahrscheinlichkeit den wahren Wert ab. Ein Konfidenzintervall an sich ist aber nicht die Garantie, den wahren Wert zu beinhalten.


Diesem Merksatz folgend können wir also folgende Definition für Konfidenzintervalle fassen:

Definition

Ein Konfidenzintervall ist ein Intervall, in dem sich der wahre Parameter (den wir nicht kennen) mit der Wahrscheinlichkeit 1-`alpha` befindet.


Konfidenzintervall 2

Halten wir nochmal kurz fest, was wir bisher wissen: Da wir keinen wahren Parameter aus dem Mittelwert der Stichprobe ablesen können, spannen wir ein Intervall, welches zu einer bestimmten Wahrscheinlichkeit den wahren Parameter beinhaltet. Hierfür müssen aber einige Bedingungen gegeben sein, welche Ihr meistens aus der Aufgabe ablesen könnt.
1. Mindestens der Mittelwert und die Stichprobengröße müssen gegeben sein, sowie entweder die Varianz, oder die Standardabweichung.
2. Zweitens muss eine Normalverteilung vorliegen, oder eine Verteilung als solche approximiert werden können. Die Berechnung eines Konfidenzintervalls basiert auf der Annahme des Zentralen Grenzwertsatzes, dass Mittelwerte aus mehreren Stichproben (n`\geq`30) der gleichen Grundgesamtheit normalverteilt sind. Erst dadurch können wir generalisierbare Regeln über die Abschnitte eines Intervalls für die Verteilung treffen.

Die Sigma Regeln

Ebendiese Generalisierbarkeit hilft uns jetzt im zweiten Schritt. Konfidenzintervalle folgen immer derselben Logik: Basierend auf gegebenen Kennzahlen (Standardabweichung, Fallgröße und Mittelwert) wird ein Intervall gespannt, welches mit einer bestimmten Wahrscheinlichkeit den wahren Wert innerhalb der Verteilung abdecken soll (1-`alpha`). Weil wir der Normalverteilung folgen und diese durch Verteilungsregeln definiert ist, können wir mit einer einfachen, aber bewährten Daumenregel die meisten bedeutenden Konfidenzintervalle abdecken und bedienen uns dabei der Standardabweichung:

Merke

Von dem Mittelwert ausgehend wird die Standardabweichung der Stichprobe (Sigma) genutzt, um ein Konfidenzintervall zu spannen.


Wir wissen zum Beispiel, dass der Mittelwert unserer Schokoladenriegelproduktion 100ml beträgt und normalverteilt ist bei einer Standardabweichung von 10. Wir können nun ganz einfach der folgenden Tabelle nachgehen und ein ausgewähltes Konfidenzintervall spannen:

Konfidenzintervall Tabelle 1

Das 95% Konfidenzintervall (das meistverwendete) für unsere Stichprobe ergibt folgende Intervallgrenzen:

`[100 ml-2*10; 100 ml + 2*10] -> [80;120]`

Wir spannen das Intervall zwischen 80 und 120 und gehen davon aus, dass dieses Intervall zu 95% den wahren Wert abdeckt. Diese einfache Vorgehensweise ist nicht nur schnell, sondern erspart Euch viel Arbeit. Wenn Ihr aber doch mal nicht sicher seid, schaut in die Tabelle der KI-Werte innerhalb Eurer Formelsammlung und Ihr stoßt auf die nun bekannten Sigma-Werte.

Konfidenzintervalle können per se unendlich viele Wahrscheinlichkeiten haben. Die häufigsten sind hierbei jedoch das 95% und das 99% Intervall. Dabei gibt es aber eine wichtige Regel:

Merke

Je größer die angestrebte Abdeckungswahrscheinlichkeit, desto größer wird das Konfidenzintervall


Konfidenzintervall 3

Um das Ganze jetzt noch weiter zu konkretisieren, können wir Konfidenzintervalle für folgende Verteilungen und gemäß den gegebenen Parametern wie folgt berechnen:

Formel

Konfidenzintervall für den Mittelwert bei bekanntem `\sigma^2`:
`[bar X_n-z_((1-\sigma/2) ) sqrt(\sigma^2/n) ,bar X_n+z_((1-\sigma/2) ) sqrt(\sigma^2/n) ]`

Konfidenzintervall für den Mittelwert bei unbekanntem `\sigma^2`:
`[\overline{X}_{n}-t_{(n-1,1-\frac{a}{2})}\sqrt{\frac{s_{n}^{2}}{n}},\overline{X}_{n}+t_{(n-1,1-\frac{a}{2})}\sqrt{\frac{s_{n}^{2}}{n}}]`

mit z als Quantil der Standardnormalverteilung und t als Quantil der t-Verteilung.
Bei der t-Verteilung benötigt man neben der Irrtumswahrscheinlichkeit `alpha` auch die Anzahl der Freiheitsgrade (hier n-1), die sich aus der Stichprobengröße n ergibt.


Aber nicht nur für Mittelwerte, sondern auch für Anteilswerte können Konfidenzintervalle abgeleitet werden:

Formel

Approximatives Konfidenzintervall für den Anteilswert `\pi` mit `hat \pi = bar X_n` als relative Häufigkeit in der Stichprobe

`[hat\pi - z_((1-\alpha/2) ) sqrt((hat \pi(1-hat \pi))/n) ,hat \pi+z_((1-\alpha/2) ) sqrt((hat \pi(1-hat \pi))/n) ]`

`X_1,…, X_n`seien u.i.v. gemäß Bernoulli-Verteilung mit Parameter `\pi, n\geq30, n\pi\geq5` und `n(1-\pi)\geq5 `


Zusammenhang von Konfidenzintervallen und Hypothesentests

Nicht nur bei der Intervall- und Parameterschätzung nutzen wir das Konstrukt des Konfidenzintervalls. Auch bei Hypothesentests können wir um die errechnete Prüfgröße (T) ein Konfidenzintervall legen. Anschließend wird geschaut, ob das Konfidenzintervall den Wert enthält, der bei einer Nullhypothese noch im Bereich des Möglichen liegt, ergo, das H_0 Intervall schneidet. Ist dem so, können wir die Nullhypothese nicht ablehnen, da der Prüfwert ggf. auch in der Nullhypothesen-Verteilung vertreten ist.

Konfidenzintervall 4

Merke

Wenn dieses Konfidenzintervall den Wert der Nullhypothese enthält, wird diese nicht abgelehnt.


Merke

Wenn Du Fragen zur Berechnung der Konfidenzintervalle hast, kurz vor der Klausur stehst und dringende Baustellen schließen willst, dann schau doch mal in unser Crashkursangebot und finde den geeigneten Kurs in Deiner Stadt!


Das war die kurze Einführung in das Konfidenzintervall. Hier findest Du noch ein kleines
Video, welches die Einführung näherbringen soll:



zurück zur Übersicht