Mediaan
De mediaan van een statistische verdeling is het midden van die verdeling.
Mediaan
De mediaan is de middelste van de (oneven aantal) waarden in de rangschikking naar grootte. Bij een even aantal waarden is de mediaan het gemiddelde van de beide middelste waarden. Deze definitie geldt zowel voor de populatie als voor de steekproef.
Populatiemediaan
Is de populatie gegeven door de verdelingsfunctie FX(x), dan is de mediaan bepaald als het punt (een van de punten) m, waarvoor FX(m) = 1 / 2.
Steekproefmediaan
Evenals dat het geval is bij het gemiddelde is het in de praktijk vaak een ondoenlijke zaak de populatiemediaan te bepalen omdat de populatie te groot (of zelfs oneindig groot) is. Ook hier nemen we onze toevlucht tot een steekproef en bepalen de steekproefmediaan als benadering (schatting) van de populatiemediaan.
Een voorbeeld:
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
waarde | -2,1 | -1,6 | 0,1 | 0,2 | 0,5 | 0,7 | 0,7 | 0,8 | 0,8 | 0,9 | 1,1 | 1,2 | 6,5 |
Omdat n=13 is oneven is het middelste getal 0.7 de mediaan van de steekproef (en de beste schatting die we hebben voor de mediaan van de hele populatie).
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
waarde | -2,1 | -1,6 | 0,1 | 0,2 | 0,5 | 0,7 | 0,7 | 0,8 | 0,8 | 0,9 | 1,1 | 1,2 |
Ook in dit geval is de mediaan 0,7, omdat het gemiddelde van beide getallen in het midden 0,7 oplevert.
Eigenschappen van de mediaan
Voor alle symmetrische verdelingen f(x) die een populatiegemiddelde μ bezitten geldt dat de populatiemediaan ook gelijk is aan μ. Voor asymmetrische 'scheve' verdelingen is dat anders maar het geldt dus wel voor de normale verdeling die een bijzonder grote rol speelt in de statistiek. Dat wil echter niet zeggen dat de steekproefmediaan en het steekproefgemiddelde ook aan elkaar gelijk zijn. Zij zijn twee verschillende schattingen van dezelfde grootheid. Beide schattingen hebben hun sterke en zwakke kanten.
Het steekproefgemiddelde is superieur wanneer het erom gaat tot het uiterste gebruik te maken van de voorhanden informatie in de steekproef. Dit noemt men efficiëntie. Het steekproefgemiddelde onderdrukt de willekeurige fout in de steekproef beter dan de mediaan en is dus een nauwkeuriger schatting van μ. Daar staat echter iets tegenover. Laten we bijvoorbeeld de bovenstaande getallen nemen, maar een typefout introduceren.
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
waarde | -2,1 | -1,6 | 0,1 | 0,2 | 0,5 | 0,7 | 0,7 | 0,8 | 0,8 | 0,9 | 1,1 | 1,2 | 650 |
Voor het gemiddelde heeft de fout in het laatste getal (nl. 650) desastreuze gevolgen, maar de mediaan blijft onveranderd. Medianen zijn dus robuust in de aanwezigheid van 'uitbijters'. In de praktijk is dat zeer waardevol omdat bij grote steekproeven de kans op een uitbijter niet te verwaarlozen is.
Robuuste statistiek
Hoewel de mediaan al erg lang bekend is, zijn de robuuste eigenschappen lange tijd niet of nauwelijks volledig uitgebuit. Vooral door het werk van een Belgische statisticus (Rousseeuw) is daar sinds de jaren '80 verandering in gekomen. Het probleem was niet dat er geen robuuste schatting voor μ bestond, maar dat een robuuste schatting voor de spreiding (standaarddeviatie) σ ontbrak. In de op kleinste kwadraten gebaseerde schattingen wordt μ geschat door het steekproefgemiddelde en σ door de steekproefspreiding (standdaarddeviatie van de steekproef) s. De laatste waarde is echter nog minder robuust dan het gemiddelde, zoals een kleine berekening met de bovenstaande waarden goed laat zien.
Rousseeuw stelde voor de MAD: mediane absolute deviatie (van de mediaan) daarvoor in de plaats te stellen.
Deze wordt berekend door eerst de mediaan van alle getallen af te trekken
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
waarde | -2,8 | -2,3 | -0,6 | -0,5 | -0,2 | 0 | 0 | 0,1 | 0,1 | 0,2 | 0,4 | 0,5 | 649,3 |
Daarna nemen we de absolute waarde en rangschikken opnieuw
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
absolute waarde | 2,8 | 2,3 | 0,8 | 0,5 | 0,2 | 0 | 0 | 0,1 | 0,1 | 0,2 | 0,4 | 0,5 | 649,3 |
opnieuw gerangschikt | 0 | 0 | 0,1 | 0,1 | 0,2 | 0,2 | 0,4 | 0,5 | 0,5 | 0,6 | 2,3 | 2,8 | 649,3 |
De mediaan hiervan is 0,4 =MAD.
Een goede (en robuuste!) schatting van μ is 1,483 MAD.
(De factor 1,483 heeft te maken met het feit dat de mediaan van een absolute (half-)normale verdeling overeenkomt met de 75ste percentiel en σ met de 84ste percentiel van een normale verdeling)
Men behulp van mediaan en MAD is het mogelijk de uitbijter te verwijderen door zijn deviatie (649,3) te vergelijken met de geschatte μ (0,6). Omdat dit een factor 100 scheelt is het uiterst onwaarschijnlijk dat dit punt bij de onderliggende verdeling hoort.
Onderwerpen uit de beschrijvende statistiek |
Gemiddelden: Rekenkundig gemiddelde | Meetkundig gemiddelde | Harmonisch gemiddelde | Kwadratisch gemiddelde | Gewogen gemiddelde | Getrunceerd gemiddelde |
|
statistiek | kansrekening | statistische toets | betrouwbaarheid | significantie | kans | modus | mediaan | spreiding | standaardafwijking | kwartiel | percentiel | gemiddelde | schatten | verdelingsfunctie |