CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
SITEMAP
Audiobooks by Valerio Di Stefano: Single Download - Complete Download [TAR] [WIM] [ZIP] [RAR] - Alphabetical Download  [TAR] [WIM] [ZIP] [RAR] - Download Instructions

Make a donation: IBAN: IT36M0708677020000000008016 - BIC/SWIFT:  ICRAITRRU60 - VALERIO DI STEFANO or
Privacy Policy Cookie Policy Terms and Conditions
Statistique mathématique - Wikipédia

Statistique mathématique

Un article de Wikipédia, l'encyclopédie libre.

Vous avez de nouveaux messages (diff ?).

Les statistiques en général traitent des populations. En statistique descriptive on se contente de procéder à des réductions statistiques qui donnent des idées concises sur des listes de nombres difficilement compréhensibles.

L'idée de base de la statistique mathématique est plus ambitieuse : elle consiste à interpréter la répartition d'une population en lui associant une loi de probabilité. Ainsi, avant d'être connu, un élément de la population est considéré comme une variable aléatoire. Un échantillon est constitué par plusieurs éléments de ce type.

L'un des problèmes consiste à déduire les propriétés statistiques de l'échantillon de celles qui sont prêtées à la variable aléatoire : c'est la théorie de l'échantillonnage.

Le problème concret est le problème inverse qui consiste à se demander quelles informations l'échantillon apporte sur les paramètres de la loi de probabilité : c'est la théorie de l'estimation.

L'estimation d'un paramètre fournit un nombre qui n'a aucune raison d'être sa valeur exacte. Il y a une certaine probabilité pour que cette valeur se trouve à l'intérieur d'un intervalle autour de la valeur estimée : en se donnant la probabilité sous la forme 1-α (α : risque de se tromper) on définit un intervalle de confiance pour l'estimation.

On peut enfin construire un test d'hypothèse : une hypothèse H est rejetée au niveau 1-α si les conséquences de l'hypothèse s'expriment par un nombre qui a une probabilité inférieure à ε d'être dépassé.

Dans un test paramétrique l'hypothèse est l'égalité d'un paramètre à une valeur donnée (le standard). Elle est rejetée si le standard est dans la région critique, hors de l'intervalle de confiance au niveau 1-α.

Dans le test du χ² l'hypothèse est l'adéquation d'une loi de probabilité à un échantillon.

Dans un test de comparaison l'hypothèse est l'égalité du paramètre pour deux populations auxquelles on prête une loi de probabilité de même forme.

La plupart de ces problèmes se simplifient considérablement si on suppose que la loi – en toute rigueur inconnue – est une loi normale.

Sommaire

[modifier] Statistiques

Les statistiques mathématiques reposent sur la théorie des probabilités. Des notions comme la mesurabilité ou la convergence en loi y sont souvent utilisées.

Une fois les bases de la théorie des probabilités acquises, il est possible de définir une statistique à partir d'une fonction S mesurable à n arguments. Lorsque les valeurs x_1,\ldots,x_n sont des réalisations d'une même variable aléatoire X, on note:

S(X)=S(x_1,\ldots,x_n)

La loi de S(X) dépend uniquement de la loi de X et de la forme de S.

[modifier] Fonctions de répartition

La fonction de répartition d'une variable aléatoire réelle X (cette définition s'étend naturellement aux variables aléatoires à valeurs dans des espaces de dimension quelconque) associe à une valeur x la probabilité qu'une réalisation de X soit plus petite de x:

F(x) = Prob(X < x)

Lorsqu'on dispose de n réalisations de X, on peut construire la fonction de répartition empirique de X ainsi (on note x(k) la kème valeur ordonnées des x_1,\ldots,x_n et on pose arbitrairement x_{(0)}=-\infty et x_{(n+1)}=+\infty):

F^*_n(x) = {k\over n},\, \forall x\in ]x_{(k)},x_{(k+1)}]

de même, la distribution empirique peut se définir (pour tout borélien B) comme:

\mathbf{P}^*_n(B) = {1\over n}\sum_{k=1}^n \mathbf{1}_{x_k}(B)

Le Théorème de Glivenko-Cantelli assure la convergence de la fonction de distribution empirique vers la fonction de distribution original lorsque la taille n de l'échantillon augmente vers l'infini.

Ces deux fonctions empirique n'étant pas continues, on leur préfère souvent des estimateurs par noyau, qui ont les même propriétés de convergence.

[modifier] Types de statistiques

On défini usuellement plusieurs types de statistiques suivant la forme de S:

  • les L-statistiques qui sont des combinaisons de statistiques d'ordres,
  • les M-statistiques qui s'expriment comme le maximum d'une fonction des réalisations d'une variable aléatoire,
  • les U-statistiques qui s'expriment sous la forme d'intégrales.

L'intérêt de cette différenciation est que chaque catégorie de statistique va avoir des caractéristiques propres.

Les estimateurs par noyau, et les moments empiriques d'une loi sont les M-statistiques.

Le moment empirique d'ordre k d'une loi calculé à partir d'un échantillon x_1,\ldots,x_n est:

\mu_n^{(k)}(X) = {1\over n}\sum_{i=1}^n x_i^k

Il s'agit d'un estimateur de E(Xk). Le moment centré d'ordre k est E((XE(X))k). La variance est le moment centré d'ordre 2.

[modifier] Echantillonnage

Considérons une population d'où l'on extrait un échantillon d'effectif n dont les éléments sont xi. La statistique descriptive associe à cet échantillon une valeur centrale, la moyenne empirique

m = {1 \over n} \sum_{i=1}^n x_i

et une valeur de dispersion, la variance empirique

s^2 = {1 \over n} \sum_{i=1}^n (x_i - m)^2

La loi de probabilité associée à cette population (en toute rigueur inconnue) possède une moyenne μ et une variance σ2 définies en probabilités dont les valeurs empiriques correspondantes donnent une idée. Le problème est que, si on avait choisi un autre échantillon, on aurait trouvé des valeurs différentes.

Ceci conduit à considérer les éléments, la moyenne empirique et la variance empirique comme des variables aléatoires possédant une loi de probabilité, une moyenne et une variance. On ne peut continuer le raisonnement qu'en supposant que les variables qui constituent l'échantillon sont indépendantes.

Sous cette condition, on peut calculer la moyenne (ou espérance) et la variance de la moyenne empirique et de la variance empirique. On obtient :

E[m] = \mu \qquad \qquad V[m] = \sigma^2 / n


E[s^2] = {{n-1} \over n}\sigma^2 \qquad \qquad V[s^2] = {1 \over n} (E[x^4] - {{n-1}\over {n-3}} \sigma^4)

L'écart-type de la moyenne empirique vaut σ / √n. Si n devient grand le théorème de la limite centrale enseigne que la moyenne suit une loi normale caractérisée par la moyenne μ et cet écart-type. Ce résultat reste valable quelle que soit la taille de l'échantillon lorsque la loi de probabilité assignée à la population est normale. Dans ce dernier cas, particulièrement important en pratique, on montre également que n s2 / σ2 suit une loi de χ2.

[modifier] Estimation

Ces résultats s'interprètent directement en terme d'estimation.

  • La moyenne empirique et la variance empirique fournissent des estimations de la moyenne et de la variance de la population.
  • Ces estimations sont convergentes car leurs variances tendent vers zéro lorsque la taille de l'échantillon s'accroît indéfiniment.
  • Elles sont correctes car leur limite est égale à la valeur à estimer.
  • L'estimation de la moyenne est absolument correcte, ou sans biais, car son espérance est égale à la valeur cherchée quelle que soit la taille de l'échantillon.
  • L'estimation de la variance est biaisée (son espérance est inférieure à la valeur cherchée). Pour obtenir une estimation sans biais, il faut utiliser une formule légèrement différente de celle de la statistique descriptive :
s'^2 = {1 \over {n-1}} \sum_{i=1}^n (x_i - m)^2

[modifier] Intervalles de confiance

L'estimation des paramètres s'effectue à partir du seul échantillon mais, si on veut apprécier la qualité de cette estimation, il faut considérer la loi de probabilité attachée à la population. A ce propos, il convient de faire deux remarques. D'une part, sauf exceptions, cette loi de probabilité reste en toute rigueur inconnue. D'autre part, on fait souvent l'hypothèse qu'il s'agit de la loi normale, soit avec quelques justifications, soit pour des raisons de commodité.

Pour décrire le principe, considérons un exemple assez artificiel qui présente l'avantage de la simplicité : l'estimation de la moyenne d'une population supposée normale dont nous connaîtrions l'écart-type. D'après le paragraphe échantillonnage, la moyenne empirique suit également une loi normale dont l'écart-type est réduit par le facteur √n.

Si nous nous fixons un risque de se tromper, par exemple 5 %, les tables de la loi normale permettent de calculer la largeur d'un intervalle autour de la valeur vraie inconnue dans lequel il y a 95 chances sur 100 de trouver l'estimation.

On peut considérer que cet intervalle représente les valeurs de la moyenne pour lesquelles la différence entre cette moyenne et l'observation n'est pas statistiquement significative au niveau 5 %. En reportant cet intervalle autour de la valeur estimée on dit qu'on a défini l'intervalle de confiance à 95 % pour la moyenne. a voir aussi loi de Student.

[modifier] Tests d'hypothèses

[modifier] Notion générale de test d'hypothèse statistique

Toute hypothèse concernant la loi de probabilité associée aux observations est une hypothèse statistique. On ne peut pas la vérifier mais seulement la rejeter lorsque les observations paraissent en contradiction avec elle. Toutefois, on ne pourra jamais affirmer avec certitude que l'hypothèse est fausse (il est toujours possible d'avoir affaire à des données exceptionnelles) mais seulement que la valeur observée est très peu probable dans le cadre de l'hypothèse choisie.

On se fixe donc a priori un risque (probabilité de rejet de l'hypothèse qui serait réalisée malgré les apparences) α. La loi de probabilité de la grandeur considérée permet de déterminer une zone de probabilité 1-α, niveau de signification du test, dont le complément, de probabilité α, est appelé région critique. Si l'estimation tombe dans cette région critique, l'hypothèse doit être rejetée avec le risque α de se tromper.

[modifier] Test paramétrique

On peut reprendre le calcul effectué pour les intervalles de confiance de la moyenne, la variance étant supposée connue, sous un autre angle. On ne cherchera pas à estimer la moyenne inconnue mais à discuter l'hypothèse selon laquelle elle a une valeur donnée, 0 par exemple.

L'intervalle construit autour de la moyenne hypothétique et non autour de la moyenne estimée a pour complément la région de rejet de l'hypothèse.

[modifier] Test du χ²

On se demande si un échantillon extrait d'une population correspond raisonnablement à une loi de probabilité hypothétique.

L'échantillon d'effectif n est divisé en k classes d'effectifs ni comme pour la construction d'un histogramme, avec une différence : il est possible d'utiliser des classes de largeur variable, c'est même recommandé pour éviter qu'elles soient trop petites. Avec cette précaution, le théorème de la limite centrale indique que les effectifs ni se comportent approximativement comme des variables normales.

La loi de probabilité étant donnée d'autre part, elle permet d'assigner à chaque classe une probabilité pi. Dans ces conditions l'expression

\sum_{i=1}^k {{(n_i - n p_i)^2} \over {n p_i}}

qui représente d'une certaine manière la distance entre les données empiriques et la loi de probabilité supposée, suit une loi de probabilité de χ2 à k-1 degrés de liberté.

Les tables de χ2 permettent de déterminer s'il y a lieu de rejeter l'hypothèse en prenant le risque, fixé à l'avance, de se tromper.

Si on considère le cas d'une loi de probabilité dont les paramètres (en général moyenne et écart-type) sont inconnus, la minimisation du χ2 par rapport à ces paramètres fournit une estimation de ceux-ci.

[modifier] Test de comparaison

Dans ce cas, le but est de comparer deux populations représentées chacune par un échantillon, l'hypothèse à contester étant l'égalité de leurs moyennes ou de leurs variances.

[modifier] Références

  • Borokov, A. A. (1999). Mathematical Statistics. Taylor & Francis. ISBN 09056990187

[modifier] Voir aussi

Articles de mathématiques en rapport avec les probabilités ou les statistiques
Statistiques descriptives | Analyse des données | Visualisation des données | Estimateurs | Tests statistiques | Séries temporelles et économétrie | Statistique Mathématique | Théorie des probabilités | Variables aléatoires | Inégalités | Théorèmes limites | Processus stochastiques | la mécanique statistique | Les statistiques et l'économie | Les statistiques et la sociologie | Les statistiques et les sciences | Les probabilités et les jeux | Les équations aux dérivées partielles et les probabilités
Modifier
Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2006 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Sub-domains

CDRoms - Magnatune - Librivox - Liber Liber - Encyclopaedia Britannica - Project Gutenberg - Wikipedia 2008 - Wikipedia 2007 - Wikipedia 2006 -

Other Domains

https://www.classicistranieri.it - https://www.ebooksgratis.com - https://www.gutenbergaustralia.com - https://www.englishwikipedia.com - https://www.wikipediazim.com - https://www.wikisourcezim.com - https://www.projectgutenberg.net - https://www.projectgutenberg.es - https://www.radioascolto.com - https://www.debitoformtivo.it - https://www.wikipediaforschools.org - https://www.projectgutenbergzim.com