Privacy Policy Cookie Policy Terms and Conditions Faktorenanalyse - Wikipedia

Faktorenanalyse

aus Wikipedia, der freien Enzyklopädie

Als Faktorenanalyse (eigentlich Faktorenanalysen) bezeichnet man eine Sammlung häufig gemeinsam angewendeter statistischer Verfahren. Sie ist eines der wichtigsten statistischen Verfahren. Mit der Faktorenanalyse können mehrere Variablen zu einigen wenigen Faktoren zusammengefasst werden (Variablen-Bündelung). Die Faktorenanalyse wird den datenreduzierenden (auch dimensionsreduzierenden) statistischen Verfahren zugeordnet. Mit einer geringen Ungenauigkeit „erkauft“ die Faktorenanalyse eine sehr viel einfachere Auswertung von großen Datensätzen.

Faktorenberechnungsmethoden: Für die Berechnung der Faktoren steht eine Vielzahl von Extraktionsmethoden zur Auswahl, von denen die Hauptkomponentenanalyse (ein parametrisches Extraktionsverfahren) (engl. Abk. PCA, principal component analysis) die am häufigsten angewandte ist. Häufig werden Faktorenanalyse und Hauptkomponentenanalyse miteinander gleichgesetzt oder verwechselt. Tatsächlich ist die Hauptkomponentenanalyse nur ein parametrisches Extraktionsverfahren innerhalb der Faktorenanalyse, welches darauf abzielt, sukzessive Varianz über alle Faktoren aufzuklären- möglich wäre beispielsweise auch ein Extraktionsverfahren, welches auf maximale Varianzaufklärung durch einen einzigen Faktor unter schwächerer Berücksichtigung der anderen Faktoren abzielt.

Faktorenqualitätsabschätzung: Wurden die Faktoren gebildet, kann man mit speziellen Faktorenanalyseverfahren die Qualität der Faktoren abschätzen, indem man diese in Relation zu den Ausgangsvariablen setzt. Zur erleichterten inhaltlichen Interpretation der Ergebnisse dienen Analyseverfahren wie das Rotationsverfahren.

Aufgrund der vielfältigen Kombinationsmöglichkeiten dieser Einzelverfahren gibt es verschiedene Wege, eine Faktorenanalyse durchzuführen. Eine interpretatorisch korrekte Faktorenanalyse setzt somit Erfahrung voraus.

Inhaltsverzeichnis

[Bearbeiten] Grundidee der Faktorenanalyse

[Bearbeiten] Informationsverdichtung

Sachverhalte, wie zum Beispiel die Intelligenz, werden über verschiedene Verfahren wie Fragebögen messbar gemacht (vgl. Operationalisierung). Geeignete Fragen – die Variablen – können hierbei Aufschluss über Gesetzmäßigkeiten (wie z.B.: Was ist Intelligenz?) geben. Wichtig für die Faktorenanalyse ist hierbei der Stichprobenparameter Varianz. Im konkreten Fall kann die Varianz beispielsweise ein Maß dafür sein, wieviele mathematische Aufgaben eine Testperson im Vergleich zum Durchschnitt richtig gelöst hat.

Eine mathematisch-statistische Analyse der Daten (zum Beispiel eines Fragebogens) muss die einzelnen Varianzen in möglichst hohem Grade erhalten, aber gleichzeitig (insbesondere bei umfangreichen Datensätzen) verdichten, so dass einerseits weitere Berechnungen praktikabel bleiben und andererseits eine inhaltliche Interpretation der Daten sowohl möglich, als auch sinnvoll ist. Ähnlich wie bei der Komprimierung von Musik- und Videodateien, die mit steigender Verdichtung an Qualität verlieren, ist auch die Faktorenanalyse ein Kompromiss zwischen Größe (Anzahl der Faktoren) und Qualität (Genauigkeit der Faktoren). Wie viele und welche Faktoren in einem spezifischen Anwendungsfall verwendet werden dürfen oder sollten, ist kriteriengeleitet festgelegt.

Die Grundidee der Faktorenanalyse ist also die, aus vielen Variablen wenige Faktoren mit wenig Informationsverlust (also Verlust an Varianz) zu extrahieren. Falls die Faktoren die Varianz der Variablen „gut erklären“, können die Faktoren bei weiteren Berechnungen anstelle der Variablen verwendet werden – die Faktoren dürfen die Variablen „vertreten“.

[Bearbeiten] Hypothesenveränderung

Bei der Berechnung der Faktoren müssen die Informationen, die in den zahlreichen ursprünglichen Variablen oft redundant vorhanden sind, weitgehend erhalten bleiben. Eine Besonderheit der Faktoren ist dabei die, dass die gebündelte Information inhaltlich nicht mehr auf die gleiche Art interpretiert werden darf wie die Rohdaten. Für die Faktoren müssen also eigene Hypothesen aufgestellt bzw. die ursprünglichen Hypothesen angepasst werden. Die Faktorenanalyse ist immer hypothesengenerierend.

[Bearbeiten] Voraussetzungen der Faktorenanalyse

  1. Alle Variablen müssen mindestens intervallskaliert sein.
  2. Die Stichprobe muss repräsentativ sein.
  3. Der Analytiker muss eine inhaltlich gute Vorstellung über die Bedeutung der Variablen haben, da sich Unsicherheiten auf die Interpretation der entstehenden Faktoren auswirken und den Interpretationsspielraum vergrößern können. (Beispielsweise sollte ein Fragebogen zur Intelligenz nicht von einem Mathematiker, sondern von einem Psychologen analysiert werden.)
  4. Die entstehenden Faktoren müssen sich hinsichtlich ihrer Eigenwerte und Ladungen hinreichend gut voneinander abgrenzen lassen.

[Bearbeiten] Historisches zur Faktorenanalyse

Die Faktorenanalyse wurde ursprünglich in der wissenschaftlichen Psychologie (Spearman) entwickelt. Heute wird sie häufig in der sozialwissenschaftlichen und psychologischen Forschung, aber auch in einzelnen physikalischen, biologischen oder chemischen Disziplinen eingesetzt. Das Ziel bestand darin, zahlreiche sehr ähnliche Variablen, wie sie in Fragebögen häufig vorkommen, zusammenzufassen, um die weitere Verwendung des Datenmaterials aufwandsarm zu gestalten.

Damals sollten mit einem Fragebogen Persönlichkeitsmerkmale erfasst werden. Verschiedene Fragen (Variablen) umschreiben hierbei ein oder mehrere solcher (noch unbekannten) Merkmale:

  • Fühlen Sie sich oft abgeschlagen?
  • Sind Sie tagsüber oft müde?
  • Haben Sie das Bedürfnis, sich am Tag ins Bett zu legen?
  • Empfinden Sie sich oft kraftlos?
  • Trinken Sie tagsüber viel Kaffee?

Historisch gesucht wurde ein Verfahren, das es ermöglicht, die aus diesen fünf Items entstehenden fünf Variablen zu bündeln, das heißt Zusammenhänge zwischen diesen Variablen (Einflussgrößen) darzustellen, indem sie diese anhand ihrer Korrelationen in möglichst wenige, nicht überlappende Faktoren klassifiziert. In diesem Beispiel wäre ein Faktor wünschenswert, der inhaltlich als „Müdigkeit“ bzw. „Abgeschlagenheit“ interpretiert werden könnte. Die Bündelung sollte so erfolgen, dass „müde Abgeschlagenheit“ einen möglichst großen Teil der gemeinsamen Varianz der fünf Variablen erklärt, damit in die (sonst sehr aufwendigen) weiteren Berechnungen nur noch dieser eine Faktor eingeht. Aus dieser praktischen Notwendigkeit entstand eine Sammlung von Verfahren, die heute allesamt unter dem Begriff Faktorenanalyse zusammengefasst werden.

[Bearbeiten] Vergleich zwischen explorative Faktorenanalyse und Hauptkomponentenanalyse (PCA)

Ursprünglich wurde von Spearman eine explorative Faktorenanalyse entwickelt, die der Hauptkomponentenanalyse (PCA) sehr ähnlich ist, sich aber in einigen Punkten von ihr unterscheidet. Beiden gemeinsam ist das Modell: y = Fx + e

mit

y ist der Vektor der zu erklärenden Variablen
F ist die Ladungsmatrix
x ist ein Vektor von Faktorenwerten
e ist ein Vektor mit Residuen (Fehler)

Ein fundamentaler Unterschied zwischen explorativer Faktorenanalyse und Hauptkomponentenanlyse (PCA) besteht in einer Annahme bezüglich der Korrelation zwischen den Residuen (Messfehler). In der explorativen Faktorenanalyse nimmt man an, die Residuen seien unkorreliert, während sie in der PCA durchaus korreliert sein können.

Dieser Unterschied führte zu einem Streit über die Gültigkeit der explorativen Faktorenanalyse nach Spearman, der bis heute (also knapp 100 Jahre) anhält. (Siehe dazu Steiger, J.H. (1979). Factor indeterminacy in the 1930's and in the 1970's... some interesting parallels. Psychometrika, 44, 157–167.).

Historisch weiter entwickelt wurden bspw. die Verfahren:

[Bearbeiten] Allgemeiner Ablauf der Faktorenanalyse

Die Faktorenanalyse wird, unabhängig von den spezifischen Rechenverfahren, stets auf die gleiche Weise durchgeführt. Die folgenden Schritte werden nacheinander eingehalten, können aber bei Bedarf wiederholt ausgeführt werden.

  1. Rohdatenaufbereitung, deskriptive Statistik, Vorbereitung der Variablen
  2. Bestimmung des Extraktionsverfahrens
  3. Extraktion
  4. Festlegung der gültigen Faktoren (kriteriengeleitet)
  5. Hypothesenanpassung
  6. ggf. Rotation
  7. weitere statistische Auswertungen oder
  8. inhaltliche Auswertung der Ergebnisse

[Bearbeiten] Analogie des prinzipiellen Verfahrens - Geographische Karte

Analogie der Faktorenanalyse
vergrößern
Analogie der Faktorenanalyse
Beispiel an einem hochdimensionalen Raum mit vielen Variablen (schwarz) und drei Faktoren (blau)
vergrößern
Beispiel an einem hochdimensionalen Raum mit vielen Variablen (schwarz) und drei Faktoren (blau)

Folgende Analogie eignet sich, die Faktorenanalyse prinzipiell zu erklären: Auf einer Karte wird die Stadt Braunschweig als Ausgangspunkt markiert. Nun werden von Braunschweig ausgehend vier Pfeile eingezeichnet: nach Hamburg, Bremen, Berlin und Potsdam. Diese Pfeile sollen die Variablen sein. Bei der Faktorenanalyse sollen die vier Variablen zu wenigen Faktoren zusammengefasst werden (datenreduzierendes Verfahren). Dabei sollen Gruppen von Variablen ermittelt werden, die in etwa in die gleiche Richtung weisen (im mathematischen Sinne also hoch miteinander korreliert sind). Auf der Karte liegen jeweils zwei der vier Pfeile ziemlich eng beieinander und zeigen grob in dieselbe Richtung (nämlich nach Hamburg und Bremen bzw. nach Berlin und Potsdam). Bei der Faktorenanalyse würden nun zwei Faktoren extrahiert und die jeweils ähnlich gerichteten Pfeile (bzw. Variablen) zusammengefasst werden. Dies führt zu einem Faktor, der als „Nordausrichtung“ interpretiert werden könnte, und zu einem, der als „Ostausrichtung“ interpretiert werden könnte. Somit wurden die vier Variablen auf zwei Faktoren reduziert, die im Wesentlichen deren Richtung angeben. Einem Reisenden ist damit geholfen, da er mit nur zwei statt vier Pfeilen die ungefähre Richtung kennt, in der er höchstwahrscheinlich die vier Städte finden kann.

Auch Orte, die nicht in diesen Richtungen liegen, können gefunden werden. Weiß beispielsweise jemand, dass das Dorf X einen hohen Wert auf dem Nordfaktor und einen geringen Wert auf dem Ostfaktor aufweist, dann kann damit dessen Lage in etwa erfasst werden. Oder umgekehrt, jemand bittet um eine Beschreibung der Lage des Dorfes Y, dann muss keine genaue, für jedes Dorf spezifische Richtung geliefert werden, sondern es reicht aus, die ungefähre Lage auf den Faktoren anzugeben.

Die in diesem Beispiel verwendeten 2 Faktoren reichen also aus, um Reisenden ungefähr den Weg zu weisen, damit sie das Ziel finden. Ähnlich reicht es in statistischen Untersuchungen oft aus, Aussagen über ja/nein-Entscheidungen (z.B. für oder gegen eine Therapieform) anhand ungefährer Ergebnisse zu treffen, solange die Daten hinreichend trivial sind. So könnte eine Faktorisierung von 100 Items eines Fragebogens, der 100 Variablen über den Zweck des Biertrinkens erfasst, hinreichend eindeutig nur wenige Faktoren wie Durst, Spaß am Betrunkensein und Alkoholismus heraus kristallisieren, wobei nur der letzte Faktor eine Therapiebedürftigkeit anzeigt. Man wird sehr viele der Betreffenden finden, ohne ihr Antwortverhalten in allen 100 Fragen exakt analysieren zu müssen, zumal ohnehin nur für oder gegen die Therapie entschieden werden muss.

[Bearbeiten] Wichtige Begriffe

Variablen

  • Es sind immer die zu Beginn der Rechnung vorhandenen Variablen gemeint, die faktorisiert werden sollen. Wenn diese Variablen Messwerte enthalten, soll der Begriff Observable (Beobachtungswerte-Variable) verwendet werden. Die Faktorenanalyse wird in der Praxis meistens an Messwertvariablen durchgeführt. Die Variablen sind deshalb auch meistens manifest. Es ist selbstverständlich auch möglich, eine Faktorenanalyse teilweise oder vollständig mit nicht-manifesten Variablen zu rechnen.
  • Die Variablen bilden in einem Datensatz den Ausgangszustand.

Faktor

  • Hiermit wird immer eine Variable bezeichnet, die durch Faktorisierung entstanden ist. Der Faktor „bündelt“ die anfänglich vorhandenen Variablen. Ein Faktor ist immer eine latente Variable. Er kann nie Messwerte enthalten und ist ohne eine eigene Hypothese inhaltlich nutzlos. Wenn es nicht möglich ist, den Faktor zu hypothetisieren, kann eine berechnete Faktorenanalyse nicht ausgewertet werden.
  • Der Faktor ist zugleich eine Dimension des Faktorenraumes.
  • Die Faktoren stellen in einem Datensatz den zu erreichenden Zielzustand dar.

Faktorenraum

  • Ein Raum, der durch die Faktoren aufgespannt wird. Er entsteht durch die Extraktion und ist meist vieldimensional. Von diesen Dimensionen werden nur jene weiterhin genutzt, die genügend Varianz der Variable aufklären. Dies sind meist auch jene, die inhaltlich vorstellbar sind. Der Faktorenraum kann durch wiederholte Rechnung der Extraktion mit jeweils veränderten Kriterien optimiert werden.

Extraktion

  • Die Rechenmethode, mit der die in den Variablen enthaltene Varianz „extrahiert“ wird. Die Extraktion erzeugt die Faktoren. Es gibt verschiedene Rechenmethoden, die zur Extraktion verwendet werden können. Sie weisen jeweils Vor- und Nachteile auf. Eine allgemeingültige Extraktionsmethode gibt es nicht. Der Anwender muss sich anhand von Kriterien für jene Extraktionsmethode entscheiden, die für ihn am geeignetsten ist.

Faktorladung

  • Die Korrelation einer Variablen mit einem Faktor. Man spricht davon, dass Variable X auf den Faktor Y mit dem Wert a lädt. Je kürzer die räumliche Entfernung zwischen Faktor und Variable im Faktorraum, desto höher die Korrelation.
  • Eine positive (negative) Faktorladung sagt aus, dass der Faktor positiv (negativ) mit der Variable korreliert. Bei einer Faktorladung von „0“ sind der Faktor und die Variable voneinander stochastisch unabhängig. Eine Faktorladung von „1“ bedeutet, dass der Faktor vollständig mit der Variable korreliert, da beide identisch sind.

Eigenwert eines Faktors (engl. ebenfalls eigenvalue genannt)

  • Wert der Gesamtvarianz aller Variablen, den dieser Faktor aufklärt. Der Eigenwert ergibt sich unabhängig von der jeweiligen Extraktionsmethode immer aus der Summe aller quadrierten Faktorladungen des Faktors.
  • Die Eigenwerte der zur Rotation ausgewählten Faktoren ändern sich mit der Rotation (d.h. ein Faktor mit Eigenwert 7 kann nach der Rotation den Eigenwert 5 haben). Die Summe aller Eigenwerte bleibt allerdings gleich.
  • Der Eigenwert ist ein Qualitätskriterium für den Faktor. Je höher der Eigenwert des Faktors, desto lukrativer ist es, ihm eine Hypothese zuzuschreiben, die ihn mit inhaltlichen Aspekten der Untersuchung verbindet.

Kommunalität

  • Summe der quadrierten Faktorladungen einer Variablen. Die Kommunalität gibt an, in welchem Maße die Varianz einer Variablen durch alle Faktoren aufgeklärt wird. Eine Variable mit einer geringen Kommunalität wird durch das Modell insgesamt schlecht vertreten.
  • Die Kommunalität ist ein Kriterium dafür, wie gut eine Variable in den Reigen der anderen Variablen passt. Eine geringe Kommunalität weist darauf hin, dass man diese Variable vielleicht zu Unrecht zu den anderen gesteckt hat, weil ihre Varianz stark abweicht. Vermutlich liegt dem Antwortverhalten der Probanden für dieses Item eine andere Gesetzmäßigkeit zugrunde, die man zuvor nicht beachtet hat. So könnte beispielsweise die Variable 5 im obigen Beispiel eine geringe Kommunalität aufweisen, weil Menschen nicht nur Kaffee trinken, wenn sie oft müde sind, sondern einfach, weil er ihnen schmeckt.

Rotation

  • Verschiedene statistische Verfahren zur Anpassung des Koordinatenkreuzes an die beobachteten Effekte. Durch eine geeignete Rotation lassen sich die Faktorladungen im Sinne von Thurstones Einfachstruktur (simple structure) so optimieren, dass auf jedem der Faktoren einige Variablen möglichst hoch, die anderen möglichst niedrig laden. Dies erleichtert die Interpretation der Faktoren.

[Bearbeiten] Überblick über Einzelverfahren der Faktorenanalyse

[Bearbeiten] Extraktionsmethoden

Als Extraktion (auch Extraktionsmethode, Extraktionsalgorithmus) wird jene statistische Rechnung bezeichnet, die zur Bildung der Faktoren führt. Sie wird zuerst durchgeführt. Die Methoden sind teilweise aus anderen Anwendungen entlehnt.

Häufig verwendete Extraktionsmethoden sind:

[Bearbeiten] Kriterien zur Bestimmung der Faktorenzahl

Bei der Extraktion entstehen je nach Option und Verfahren sehr viele Faktoren. Nur wenige von ihnen erklären genug Varianz, um ihre weitere Verwendung rechtfertigen zu können. Die Auswahl der Faktoren dient in erster Linie der Gewinnung von aussagekräftigen, gut interpretierbaren Ergebnissen und ist damit nur eingeschränkt objektivierbar. Anhaltspunkte können folgende Kriterien liefern:

Grundsätzlich sollten mehrere Kriterien herangezogen werden. Insbesondere im Zweifelsfall bietet es sich an, mehrere Faktorenzahlen durchzurechnen und im Hinblick auf Ladungen und Interpretierbarkeit zu überprüfen.

Gibt die der Untersuchung zugrundeliegende Theorie eine bestimmte Faktorenanzahl vor, kann diese auch in der Faktorenanalyse verwendet werden. Auch kann seitens des Untersuchenden mehr oder minder willkürlich festgelegt werden, welcher Anteil der Gesamtvarianz erklärt werden soll, die hierfür erforderliche Faktorenzahl leitet sich dann daraus ab. Jedoch ist auch bei einer theorie- oder varianzgeleiten Festlegung die Faktorenzahl anhand der genannten Kriterien auf Plausibilität zu prüfen.

[Bearbeiten] Rotationsverfahren

Die Rotation ist eine Entscheidungshilfe für die inhaltliche Interpretation der Faktoren. Zur Verfügung stehen verschiedene Verfahren, darunter:

  • Varimax (orthogonal)
  • Oblimin (schiefwinklig)
  • Quartimax (orthogonal)
  • Equamax (orthogonal)
  • Promax (schiefwinklig)

Diese Verfahren nähern sich der Rotationslösung iterativ an und erfordern meist zwischen 10 und 40 Iterationsrechnungen.

[Bearbeiten] Projektion von neuen Variablen in den vorhandenen Faktorenraum

An den Objekten mit jeweils n Variablen seien weitere k Variable gemessen worden. Aus den (n+k) Variablen würden u.U. völlig neue Faktoren resultieren. Es sollen aber keine neuen Faktoren ermittelt werden. Statt dessen sollen die k zusätzlichen Variablen in den vorhandenen (durch die Ladungen vorgegebenen) Faktorenraum projiziert werden. Hierbei werden die Korrelationen (Ladungen) zwischen den neuen Variablen und den alten Faktoren gesucht.

Es seien folgende Korrelationsmatrizen definiert: R11 zwischen den alten Variablen, R12 zwischen den alten und neuen Variablen (wobei R21' = R12) und R22 zwischen den neuen Variablen. Sei A1 die vorhandene und A2 die gesuchte Ladungsmatrix zwischen den k neuen Variablen und den s ≤ n alten Faktoren.

Die gesamte Korrelationsmatrix ist R = \begin{pmatrix} R_{11} & R_{12} \\ R_{21} & R_{22} \end{pmatrix} , entsprechend ist A = \begin{pmatrix} A_{1} \\ A_{2} \end{pmatrix} = \begin{pmatrix} A_{1} \\ 0 \end{pmatrix} + \begin{pmatrix} 0 \\ A_{2} \end{pmatrix} .

Eine Schätzung für A2 ist A_{2} \simeq (R_{21} \cdot A_{1}) \cdot (A_{1}' \cdot A_{1})^{-1} , wie sich wegen R \simeq A \cdot A' zeigen lässt. Für s = Rang(R11) gelten die Gleichheitszeichen.

[Bearbeiten] Extraktionsmethode Hauptkomponentenanalyse

Hauptartikel: Hauptkomponentenanalyse

Die Hauptkomponentenanalyse ist wegen ihrer Problemlosigkeit die häufigst verwendete Extraktionsmethode. Mit ihr werden Faktoren ermittelt, die sukzessiv einen maximalen Anteil der Varianz beschreiben. Das bedeutet, dass der erste Faktor den größten Anteil der Varianz beschreibt, der zweite Faktor den zweitgrößten usw. In der Regel sind die extrahierten Faktoren voneinander unabhängig, d. h. ihre Korrelation beträgt 0 bzw. sie sind orthogonal.

Nach der Berechnung gibt der Faktorwert für jeden einzelnen Probanden seine Ausprägung auf den einzelnen Faktoren an. Besonders bekannt ist hier die Berechnung des IQ durch den Faktor g von Charles Spearman. Weitere typische Anwendungen sind Persönlichkeitstests, bei denen die Probanden (z.B. n=1000) einen Fragebogen mit z.B. 60 skalierten Fragen ausfüllen, aus denen 60 Variablen mit Einzelwerten für jeden Probanden resultieren. In diesen werden dann zur Bildung eines schlüssigen Persönlichkeitsbildes Faktoren gesucht. Das können bei der Hauptkomponentenanalyse beispielsweise 8 - 12 sein. Ein solcher Faktor könnte Extraversion/Introversion heißen.

Grundlage für die Berechnung ist eine Korrelationsmatrix.

[Bearbeiten] Mathematisches Vorgehen bei Verwendung der Hauptkomponentenanalyse

Hauptkomponentenanalyse in einem 2-dimensionalen Raum
vergrößern
Hauptkomponentenanalyse in einem 2-dimensionalen Raum

Das Prinzip der Hauptkomponentenanalyse lässt sich am besten graphisch verdeutlichen. Wenn n Variablen erfasst werden, spannen diese Variablen einen n-dimensionalen Raum auf, der sich graphisch bei n>3 nicht darstellen lässt. Darum stelle man sich vereinfachend vor, es wären nur zwei Variablen erfasst worden. Diese spannen also ein Koordinatensystem auf (X- und Y-Achse stellen die Variablen dar). Die Punkte im Koordinatensystem stellen die jeweiligen Leistungen der Versuchspersonen (Vpn) auf beiden Variablen dar. Angenommen, beide Variablen seien nun leicht positiv miteinander korreliert (d. h. der Punktschwarm ist in etwa ellipsenförmig mit einer von links unten nach rechts oben verlaufenden großen Achse der Ellipse). Bei der Hauptkomponentenanalyse werden nun – vereinfachend umschrieben – die Faktoren wie folgt extrahiert: Ein Faktor wird genau so in den Punktschwarm gelegt, dass diese die Varianz optimal beschreibt. Das heißt nichts anderes, als dass die Gerade solange gedreht wird, bis sie die Punktwolke maximal approximiert – also bis die Gerade genau durch den maximalen Durchmesser der Ellipse verläuft. Diese Gerade ist der erste Faktor, der nun die Varianz optimal beschreibt. Um den zweiten Faktor zu extrahieren, soll eine zweite Gerade rechtwinklig durch den ersten Faktor verlaufen. Damit ist die Korrelation beider Faktoren miteinander null – sie sind also linear unabhängig. Diese zweite Gerade wird nun solange auf dem ersten Faktor bewegt (immer im rechten Winkel zu diesem), bis sie die maximale Restvarianz der Punktwolke beschreibt, also die Punktwolke auf der zweiten Geraden maximal breit ist. Diese Gerade ist nun der zweite Faktor.

Folgende fiktive Statistik könnte entstehen:

Variable    Kommunalität  Faktor    Eigenw   Var    kum.Var

Var 1         1.00           1       3.7     55.1    55.1
Var 2         1.00           2       3.5     34.3    89.4

Eine wichtige Anmerkung zu diesem Beispiel ist natürlich, dass man in der Forschung viel mehr als nur zwei Ausgangsvariablen untersucht. Die Faktoren bilden also einen n-dimensionalen Raum („Faktorenraum“), der für n > 3 nicht anschaulich vorgestellt werden kann. Außerdem würde eine Faktorenanalyse, die aus zwei Variablen zwei Faktoren extrahiert, natürlich wenig sinnvoll sein, weil die Zahl der Faktoren sehr viel geringer als die Zahl der Variablen sein soll. Das Beispiel dient der Veranschaulichung des Prinzips.

Folgende fiktive Statistik könnte mit 10 Variablen entstehen:

Variable    Kommunalität  Faktor    Eigenw   Var    kum.Var in %

Var 01        1.00           1       4.7     55.1    55.1
Var 02        1.00           2       4.5     34.3    89.4
Var 03        1.00           3       1.1     5.2     94.6
Var 04        1.00           4       0.9     1.1     95.7
Var 05        1.00           5       0.8     1.0     96.7     
Var 06        1.00           6       0.8     0.8     97.5
Var 07        1.00           7       0.5     0.3     97.8
Var 08        1.00           8       0.5     0.2     98.0
Var 09        0.92           9       0.4     0.2     98.2
Var 10        0.31          10       0.3     0.1     98.3

In diesem Beispiel ist nach dem Kaiser-Kriterium die Berücksichtigung von drei Faktoren sinnvoll (Eigenwerte über "1"); nach dem Ellenbogenkriterium hingegen sollen nur zwei Faktoren unterschieden werden (Knick). Nach beiden Kriterien wird ein sehr hoher Anteil der Observablenvarianz aufgeklärt. (89.4 % bzw. 94.6 %) Außerdem zeigt eine geringe Kommunalität der Variable 10 an, dass diese Variable vermutlich zu unrecht in die Rechnung einbezogen wurde. Durch Ausschluss dieser Variable kann möglicherweise eine erneute Rechnung verbessert werden.

Gängige Statistikprogramme wie SPSS oder SAS geben die Faktoren als Variablen in die Datensätze zurück.

[Bearbeiten] Weitere Merkmale der Hauptkomponentenanalyse

Die Diagonalemente der Korrelationsmatrix der zu faktorisierenden Variablen werden eingangs auf "1" gesetzt. Dies entspricht der ersten Schätzung innerhalb des Verfahrens.

[Bearbeiten] Interpretation der Faktoren

[Bearbeiten] Inhaltliche Interpretation

Die Faktoren können inhaltlich gut interpretiert werden, wenn auf ihnen Variablen hoch laden, die inhaltlich eng mit einander verbunden sind. Die Interpretation sollte alle Eigenschaften, die die Variablen erfassen, einbeziehen. Als Name für den Faktor kann ein Substantiv mit mehreren Adjektiven gewählt werden. Wurden beispielsweise Items Fühlen Sie sich oft abgeschlagen?, Sind Sie tagsüber oft müde?, Haben Sie das Bedürfnis, sich am Tag ins Bett zu legen?, Empfinden Sie sich oft kraftlos? und Trinken Sie tagsüber viel Kaffee? faktorisiert, so könnte der Faktor tagesmüde Abgeschlagenheit heißen. In der Statistik ist auch die Bildung von Kunstworten üblich, die sich nicht an grammatischen Regeln orientieren, z.B. kaffetrinkenbewirkendes Tagesabgeschlagenfühlen.

Die inhaltliche Interpretation ist immer mit einer eigenen Hypothese verbunden.

[Bearbeiten] Interpretation mit Hilfe der Rotationstransformation

Ebenso, wie man sich vieldimensionale Räume schwer vorstellen kann, fällt es schwer, sich Eigenschaften vorzustellen, die Extrakte aus Mischungen von Messwerten sind. Die Interpretation der Faktoren kann jedoch durch statistische Verfahren erleichtert werden, die die Datensätze gewissermaßen von verschiedenen Richtung beleuchten. Hierzu zählt das Rotationsverfahren. Es lässt sich unabhängig von der Extraktionsmethode einsetzen und kann durch oben genannte Algorithmen berechnet werden. Meist wird die Varimax-Methode eingesetzt, die orthogonal ist.

Mit einer Testbatterie wurden vier Variablen (Observablen) gewonnen, die die Messwerte eines Rechentests (R), einer Zählaufgabe (Z), eines Lesetests (L) und eines Worttests (W) enthalten. Durch Faktorenanalyse wurden zwei Faktoren extrahiert. Jede der Ausgangsvariablen weist eine Faktorladung auf, die die Korrelation zwischen der Variablen und einem Faktor angibt. Zur Verdeutlichung wird ein Koordinatensystem gezeichnet, in dem die X-Achse dem ersten und die Y-Achse dem zweiten Faktor entspricht. In dieses Koordinatensystem werden nun die Faktorenladungen der vier Ausgangsvariablen eingetragen. Dabei ergebe sich folgender Faktorraum:

          |Faktor 2
          |        
    R     |       L
    Z     |       W
          |
__________|__________Faktor 1
          |
          |
          |
          |

Wobei:

Die X-Achse den Faktor 1, die Y-Achse den Faktor 2 darstellt. R, Z, L, W gibt die Position der Faktorladung der Tests in diesem Koordinatensystem wieder. Die Werte entsprechen der Korrelationen der Variablen mit den Faktoren.

Die Skizze zeigt, dass alle vier Ausgangsvariablen hoch mit beiden Faktoren korreliert sind. Wie also sollen die Faktoren interpretiert werden? Während Faktor 1 hier die mathematischen von den sprachliche Kompetenzen noch trennen kann (Vorzeichen), fallen alle vier Variablen auf Faktor 2 zusammen.

Um nun die Faktoren interpretieren zu können, wird das Rotationsverfahren angewendet. Es gibt verschiedene Transformationen – hier soll die am häufigsten verwendete orthogonale Transformationsrotation dargestellt werden.

Orthogonale Rotationstransformation bedeutet, dass das obige Koordinatensystem solange entgegen dem Uhrzeigersinn gedreht wird, bis die einzelnen Variablen jeweils möglichst hoch auf einem Faktor und möglichst niedrig auf dem anderen Faktor laden. Bei dieser Rotation wird aber stets die ursprüngliche Form des Koordinatensystem beibehalten, d. h. beide Faktoren bleiben rechtwinklig zueinander.

In unserem Beispiel könnten das Koordinatensystem um 45° entgegen dem Uhrzeigersinn gedreht werden. Das hätte zur Folge, dass R und Z hoch auf Faktor 2 laden und kaum auf Faktor 1. Und gleichzeitig laden L und W sehr stark auf Faktor 1, aber kaum auf Faktor 2. Dann fiele die Interpretation der Faktoren sehr viel leichter. Da nur die Lese- und Worttests deutlich auf dem ersten Faktor laden, könnte man schlussfolgern, dass der erste Faktor sprachliche Kompetenzen erfasst. Da nur die Rechen- und Zählaufgabe auf Faktor 2 deutlich laden, könnte man diesen als mathematische Kompetenz beschreiben.

Die Rotationsmatrix in diesem fiktiven Fall könnte so aussehen:

    Faktor 1  Faktor 2
R      .08        .92
Z      .03        .89

L      .83       -.06
W      .82       -.12

[Bearbeiten] Nachteile der Rotationstransformation

Die Rotationstransformation reagiert insbesondere bei wenigen Variablen sehr sensibel auf Messfehler und kurzfristig wirksame Einflüsse.

[Bearbeiten] Probleme der Faktorenanalyse

Das Verfahren der Faktorenanalyse gibt nur an, wie hoch die einzelnen Faktoren mit den jeweiligen Variablen korrelieren. Es bleiben viele Entscheidungen, die der subjektiven Ansicht überlassen sind. Hierzu zählt unter anderem die Anzahl der verwendeten Faktoren sowie die Benennung der Faktoren.

Darüber hinaus müssen die Daten intervallskaliert sein, um für eine Faktorenanalyse geeignet zu sein. Dieses Kriterium wird in der Praxis oft verletzt und Daten werden einer Faktorenanalyse unterzogen, die einem niedrigeren Skalenniveau entsprechen (wie etwa Nominalskalenniveau oder Ordinalskalenniveau).

Außerdem können Daten, die auf einer nicht repräsentativen Stichprobe beruhen, zu falschen Ergebnissen führen.

Ein weiteres Problem stellen zeitlich aufeinanderfolgende Messreihen mit jeweiliger Faktorenanalyse oder die Erweiterung der vorhandenen Variablen durch neue Variablen und ihre Messungen dar. Werden immer wieder neue Faktorenanalysen gerechnet, dann können sich auch immer neue Faktoren errechnen, die Ergebnisse sind nicht vergleichbar. Hier bietet sich die Projektion der neuen Variablen in den vorhandenen Faktorenraum an.

[Bearbeiten] Explorative Faktorenanalyse

Von explorativer Faktorenanalyse spricht man, wenn faktorenanalytische Verfahren dazu verwendet werden, Items in einem Test zu Skalen zusammen zu stellen. Hiermit wird die sogenannte Einfachstruktur gewährleistet, die für die Anwendungsfähigkeit der Test später wichtig ist. Für diese Aufgabenstellungen eignen sich die faktorenanalytischen Verfahren sehr gut. Das Vorgehen zählt zur induktiven Testkonstruktion.

Ziele der explorativen Faktorenanalyse bestehen darin, die Korrelation zwischen den Items innerhalb der Skalen (Homogenität) hoch zu halten. Die Korrelation von Items einer Skala mit Items anderer Skalen soll hingegen niedrig sein.

Schritte bei der Durchführung einer explorativen Faktorenanalyse:

  1. Auswahl der Variablen
  2. Prüfung der Voraussetzungen (Zahl der Variablen, Normalverteilung etc.)
  3. Erstellung der Korrelationsmatrix
  4. Faktorenextraktion
  5. Festlegung der Anzahl der Faktoren, z.B. über den Eigenwertverlauf (Kaiser-Kriterium, Scree-Test)
  6. Faktorenrotation (mit dem Ziel einer Einfachstruktur --> geeignete Items laden nur auf einer Faktor)
  7. Faktoreninterpretation

[Bearbeiten] Siehe auch

[Bearbeiten] Literatur

  • Backhaus, Klaus et al.: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. 11. Auflage, Berlin: Springer, 2006, ISBN 3540278702.
  • Daly, Fergus et al.: Elements of Statistics. Harlow: Prentice Hall, 1995, ISBN 0201422786.
  • Fahrmeir, Ludwig et al. (Hrsg): Multivariate Statistical Modelling Based on Generalized Linear Models. 2nd edition, Springer: New York 2001, ISBN 0387951873.

[Bearbeiten] Weblinks

THIS WEB:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2006:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu