Privacy Policy Cookie Policy Terms and Conditions Korrelationskoeffizient - Wikipedia

Korrelationskoeffizient

aus Wikipedia, der freien Enzyklopädie

Der Korrelationskoeffizient (von Bravais-Pearson) ist ein dimensionsloses Maß für den Grad des linearen Zusammenhangs (Zusammenhangsmaße) zwischen zwei mindestens intervallskalierten Merkmalen. Er kann lediglich Werte zwischen -1 und 1 annehmen. Bei einem Wert von +1 (bzw. -1) besteht ein vollständig positiver (bzw. negativer) linearer Zusammenhang zwischen den betrachteten Merkmalen. Wenn der Korrelationskoeffizient den Wert 0 aufweist, hängen die beiden Merkmale überhaupt nicht linear voneinander ab. Allerdings können diese ungeachtet dessen in nicht-linearer Weise voneinander abhängen. Damit ist der Korrelationskoeffizient kein geeignetes Maß für die (reine) stochastische Abhängigkeit von Merkmalen.

Je nachdem, ob der lineare Zusammenhang zwischen zeitgleichen Messwerten zweier verschiedener Merkmale oder derjenige zwischen zeitlich verschiedenen Messwerten eines einzigen Merkmals betrachtet wird, spricht man entweder von der Kreuzkorrelation oder von der Autokorrelation (siehe Zeitreihenanalyse).

Inhaltsverzeichnis

[Bearbeiten] Definition

Für zwei quadratisch integrierbare Zufallsvariablen X und Y mit positiver Varianz \operatorname{Var} ist der Korrelationskoeffizient (Pearsonscher Maßkorrelationskoeffizient) mit den Erwartungswerten \operatorname{E} durch

\operatorname{Kor}(X,Y) := \varrho(X,Y) := \frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)} \cdot \sqrt{\operatorname{Var}(Y)}}= \frac{\operatorname{E}\left[(X-\operatorname{E}(X))(Y-\operatorname{E}(Y))\right]}{\sqrt{\operatorname{Var}(X)} \cdot \sqrt{\operatorname{Var}(Y)}}

definiert.

Ferner heißen X,Y unkorreliert, falls \operatorname{Cov}(X,Y)=0.

Sind für die beiden Zufallsvariablen lediglich zwei Messreihen x1,x2,...,xn und y1,y2,...,yn bekannt, so wird der empirische Korrelationskoeffizient nach folgender Formel berechnet:

\operatorname{Kor}_e(X,Y) := \varrho_e(X,Y) := \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2}\cdot\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\bar{y})^2}}

Dabei sind

\bar{x} = \frac{1}{n}\cdot\sum_{i=1}^{n} x_{i} und \bar{y} = \frac{1}{n}\cdot\sum_{i=1}^{n} y_{i}

die empirischen Erwartungswerte X und Y anhand der Messreihe.

[Bearbeiten] Eigenschaften

Mit der Definition des Korrelationskoeffizienten gilt unmittelbar

  • \operatorname{Kor}(X,Y)=\operatorname{Kor}(Y,X)
  • \operatorname{Kor}(X,X)=1.
  • \operatorname{Kor}(X,-X)=-1.

Mit der Cauchy-Schwarz-Ungleichung sieht man, dass

  • \operatorname{Kor}(X,Y)\in[-1,1].

Durch Optimieren ergibt sich, dass Y = aX + b fast sicher genau dann, wenn |\operatorname{Kor}(X,Y)|=1.

Sind die Zufallsgrößen X und Y voneinander unabhängig, dann gilt:

  • \operatorname{Kor}(X,Y)=0. Die Umkehrung dieses Satzes gilt jedoch im allgemeinen nicht.

[Bearbeiten] Voraussetzungen für den Korrelationskoeffizienten

Der Korrelationskoeffizient nach Pearson erlaubt Aussagen über statistische Zusammenhänge unter folgenden Bedingungen:

[Bearbeiten] Skalierung

Der Pearsonsche Korrelationskoeffizient liefert korrekte Ergebnisse bei intervallskalierten und bei dichotomen Daten. Für niedrigere Skalierungen existieren andere Korrelationskonzepte.

[Bearbeiten] Linearitätsbedingung

Zwischen den Variablen x und y wird ein linearer Zusammenhang vorausgesetzt. Diese Bedingung wird in der Praxis nicht selten ignoriert; daraus erklären sich mitunter enttäuschend niedrige Korrelationen, obwohl der Zusammenhang zwischen x und y bisweilen trotzdem hoch ist. Ein einfaches Beispiel für einen hohen Zusammenhang trotz niedrigem Korrelationskoeffizienten ist die Fibonacci-Folge. Alle Zahlen der Fibonacci-Folge sind durch ihre Position in der Reihe durch eine mathematische Formel exakt determiniert (siehe die Formel von Jacques-Philippe-Marie Binet in Fibonacci-Folge). Der Zusammenhang zwischen der Positionsnummer einer Fibonacci-Zahl und der Größe der Zahl ist vollkommen determiniert. Dennoch beträgt der Korrelationskoeffizient zwischen den Ordnungsnummern der ersten 360 Fibonacci-Zahlen und den betreffenden Zahlen nur 0,20; das bedeutet, dass in erster Näherung nicht viel mehr als 4% ( = 0,22) der Varianz durch den Korrelationskoeffizienten erklärt werden und 96% der Varianz "unerklärt" bleiben. Der Grund ist die Vernachlässigung der Linearitätsbedingung, denn die Fibonacci-Zahlen wachsen progressiv an: In solchen Fällen ist der Korrelationskoeffizient nicht korrekt interpretierbar.

[Bearbeiten] Signifikanzbedingung

Ein Korrelationskoeffizient > 0 bei positiver Korrelation bzw. < 0 bei negativer Korrelation zwischen x und y berechtigt nicht a priori zur Aussage, es bestehe ein statistischer Zusammenhang zwischen x und y. Eine solche Aussage ist nur gültig, wenn der ermittelte Korrelationskoeffizient signifikant ist. Je höher die Anzahl der Wertepaare (x,y) und das Signifikanzniveau sind, desto niedriger darf der Absolutbetrag eines Korrelationskoeffizienten sein, um zur Aussage zu berechtigen, zwischen x und y gebe es einen linearen Zusammenhang. Zur Bestimmung der Signifikanz eines Korrelationskoeffizienten dient der Korrelationstest auf Basis der t-Verteilung.

[Bearbeiten] Bildliche Darstellung und Interpretation

Sind zwei Merkmale vollständig miteinander korreliert (d.h. |r| = 1), so liegen alle Messwerte in einem 2-dimensionalen Koordinatensystem auf einer Geraden. Bei einer perfekten positiven Korrelation (r = +1) steigt die Gerade; wenn die Merkmale perfekt negativ miteinander korreliert sind (r = -1), sinkt die Gerade. Besteht zwischen 2 Merkmalen eine sehr hohe Korrelation, sagt man oft auch, sie erklären dasselbe.

Je kleiner der Betrag von r, desto kleiner der lineare Zusammenhang. Für r = 0 kann der statistische Zusammenhang zwischen den Messwerten nicht mehr durch eine eindeutig steigende oder sinkende Gerade dargestellt werden. Dies ist z.B. der Fall, wenn die Messwerte rotationssymmetrisch um den Mittelpunkt verteilt sind. Dennoch kann dann ein nicht-linearer statistischer Zusammenhang zwischen den Merkmalen gegeben sein. Umgekehrt gilt jedoch: Wenn die Merkmale statistisch unabhängig sind, nimmt der Korrelationskoeffizient stets den Wert 0 an.

Der Korrelationskoeffizient ist kein Indiz eines ursächlichen Zusammenhangs zwischen den beiden Merkmalen: Die Besiedlung durch Störche im Süd-Burgenland korreliert zwar positiv mit der dortigen Geburtenzahl, doch das bedeutet noch lange keinen kausalen Zusammenhang. Trotzdem ist ein statistischer Zusammenhang gegeben. Dieser leitet sich aber aus einem dritten, vierten etc. Faktor ab, wie in unserem Beispiel der Industrialisierung, der Wohlstandssteigerung, die einerseits den Lebensraum der Störche einschränkten und andererseits zu einer Verringerung der Geburtenzahlen führten.

Der Korrelationskoeffizient kann schon gar kein Indiz über die Richtung eines Zusammenhanges sein: Steigen die Niederschläge durch die höhere Verdunstung oder steigt die Verdunstung an, weil die Niederschläge mehr Wasser liefern? Bedingt das eine das andere möglicherweise in beiderlei Richtung?

Ob ein gemessener Korrelationskoeffizient groß oder klein ist, hängt stark von der Art der untersuchten Daten ab. Bei psychologischen Fragebogendaten werden z.B. Werte bis ca. 0,3 häufig als klein angesehen, während man ab ca. 0,8 von einer sehr hohen Korrelation spricht. Das Quadrat des Korrelationskoeffizienten r2 nennt man Bestimmtheitsmaß. Es gibt in erster Näherung an, wieviel % der Varianz durch die untersuchte Beziehung erklärt werden. Beispiel: Bei r = 0,3 bzw. 0,8 werden 9% bzw. 64% der gesamten auftretenden Varianz im Hinblick auf einen statistischen Zusammenhang erklärt.

[Bearbeiten] Verteilung des Korrelationskoeffizienten

Korrelationskoeffizienten sind nicht normalverteilt. Sie verteilen sich eingipfelig nach rechts verzerrt (rechtssteil oder auch linksschief). Vor der Berechnung von Vertrauensbereichen (Konfidenzintervallen) muss daher erst eine Korrektur der Verteilung mit Hilfe der Fisher-Transformation (s.u.) vorgenommen werden. Die transformierten Korrelationen sind dann annähernd normalverteilt. Das so errechnete Konfidenzintervall wird danach wieder auf die ursprünglichen Korrelationen zurückgeführt. Konfidenzintervalle von Korrelationen liegen in aller Regel unsymmetrisch bezüglich ihres Mittelwerts.

[Bearbeiten] Fisher-Transformation

Der Korrelationskoeffizient r ist rechtssteil unimodal verteilt. Durch die Transformation

f(r)=0.5(\ln(1+r)-\ln(1-r))\,

ist f(r) annähernd normalverteilt. Das auf Basis dieser Normalverteilung errechnete Konfidenzintervall der Form

z_1\leq\mu\leq z_2

wird sodann retransformiert zu

\begin{matrix} r_1    &=&(e^{2z_1}-1)/(e^{2z_1}+1)\\ r_2    &=&(e^{2z_2}-1)/(e^{2z_2}+1)\\ \mu(r)&=&(e^{2\mu}-1)/(e^{2\mu}+1) \end{matrix}.

Das Konfidenzintervall für die Korrelation lautet sodann

r_1\leq\mu(r)\leq r_2.

[Bearbeiten] Siehe auch

[Bearbeiten] Weblinks

Wikibooks: Einfache Erläuterung des Korrelationskoeffizienten – Lern- und Lehrmaterialien
THIS WEB:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2006:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu