Cours de maths à partir de 9.90 €/heure

Testez maintenant

Cours maths 1ère S

Statistiques

Statistiques

 

Statistique

« L’objet de la méthode statistique est la réduction des données. Une masse de données doit être remplacée par un petit nombre de quantités représentant correctement cette masse, et contenant autant que possible la totalité de l’information pertinente contenue dans les données d’origine. »



Cette citation est de Sir Ronald Aymler Fisher, biologiste et statisticien britannique, né le 17 février 1890 à East Finchley (Middlesex, Angleterre) et mort le 29 juillet 1962 à Adelaïde (Australie).

 

Introduction

La citation de Sir Ronald Aymler Fisher ci-dessus résume bien l’objet de la méthode statistique.

Avant de commencer, précisions le vocabulaire utilisé dans cette partie des mathématiques.

La statistique est la science qui consiste à réunir des données chiffrées, à les analyser et à les commenter.

Une étude statistique s’effectue sur un ensemble appelé population dont les éléments sont appelés individus et consiste à observer et étudier un même aspect sur chaque individu, appelé caractère.

 

Caractères

  • Quelques points importants à retenir

On distingue deux types de caractères :

- les caractères qualitatifs : ce sont les caractères dont les valeurs ne sont pas des nombres (par exemple : couleur des cheveux, profession,…) ;
- les caractères quantitatifs : ce sont les caractères qui prennent des valeurs numériques.

Un caractère quantitatif peut être :

- discret si les valeurs du caractère sont isolées (par exemple : nombre d’enfants). Les valeurs d’un caractère discret sont appelées les modalités.
- continu si les valeurs du caractère sont regroupées en intervalles appelés classes (par exemple : taille [1.60,1.70[ , [1.70,1.80[…).

La largeur de chaque intervalle s’appelle l’amplitude.

 

Effectifs et fréquences

On appelle effectif d’une valeur (respectivement d’une classe, d’une modalité) le nombre d’individus possédant le caractère de cette valeur (respectivement de cette classe, de cette modalité).

On appelle fréquence d’une valeur (respectivement d’une classe, d’une modalité) le quotient de l’effectif de cette valeur (respectivement cette classe, cette modalité ) par l’effectif total de la population.

Les fréquences sont des nombres compris entre 0 et 1, souvent exprimés en pourcentage.

 

Effectifs et fréquences cumulés

Dans le cas d’une variable quantitative, on peut ordonner les différentes valeurs de la variable dans l’ordre croissant ou décroissant.

On peut ainsi déterminer :

« quel effectif ou quelle fréquence de la population a une valeur du caractère au plus égale à ou au moins égale à … »

On obtient alors des effectifs cumulés croissants ou décroissants ou des fréquences cumulées croissantes ou décroissantes.

 

Médiane d'une série statistique

Soit une série statistique à caractère quantitatif discret dont toutes les valeurs ordonnées sont :

x1 ≤ x2 ≤ .......... ≤ xn

Définition :

La médiane Me d’une série statistique ordonnée
d’effectif n est :

- sa valeur centrale lorsque n est impair
- la demi-somme de ses deux valeurs centrales lorsque n est pair.

Exemple

Voici les notes obtenues par un groupe d’élèves au devoir de mathématiques :

6, 8, 9, 10, 12, 13, 16, 16, 19

La note médiane est égale à 12.
Il y a autant d’élèves qui ont eu 12 ou plus que d’élèves qui ont eu 12 ou moins.


La médiane d’une série statistique ordonnée indique le centre de la série.

La médiane d’une série statistique est la valeur du caractère qui partage l’effectif total en deux parties égales.

 

Etendue d'une série statistique

Nous allons voir maintenant comment prendre en compte la répartition des valeurs.
Pour une série statistique donnée, nous pouvons calculer l’étendue e de la série.
L’étendue vaut

e = Max - Min

où Max et Min sont deux valeurs extrêmes de la série : Max est la plus grande valeur et Min est la plus petite.

Cependant, l’étendue ne nous donne pas d’indication sur comment sont réparties les valeurs entre ces deux valeurs extrêmes.

Pour avoir une idée un peu plus précise de la dispersion des valeurs, on partage la série en quatre parties de même effectif.

On définit ainsi les quartiles.

 

Quartiles

Les quartiles sont les valeurs du caractère qui partagent l’effectif total en quatre parties égales.
- Le premier quartile Q1 est la plus petite valeur du caractère pour laquelle 25% des valeurs de la série statistique lui sont inférieures ou égales.
- Le troisième quartile Q3 est la plus petite valeur du caractère pour laquelle 75% des valeurs de la série statistique lui sont inférieures ou égales.

Il y a donc trois quartiles.

Le deuxième quartile correspond à la médiane.

 

Intervalle interquartile, écart interquartile

Définitions :

- L’intervalle interquartile d’une série statistique est l’intervalle [Q1 - Q3]
- L’écart interquartile est le nombre positif Q3 - Q1

 

Diagramme en boîte ou boîte à moustache

Les cinq nombres Min, Q1, Me, Q3, Max permettent de résumer une série statistique quantitative.
Une façon possible de représenter graphiquement ce résumé est d’utiliser un diagramme en boîte ou boîte à moustaches.
La boite à moustaches a été inventée en 1977 par John Tukey.

John Wilder Tukey était un mathématicien et statisticien américain, né le 16 juin 1915 à New Bedford dans le Massachussetts et décédé le 26 juillet 2000 à New Brunswick dans le New Jersey.

La boite à moustaches est aussi quelques fois appelée diagramme de Tukey ou boîte à pattes ou box plot.

Dessiné au-dessus d’un axe, un diagramme en boîte est constitué :

- d’une boîte délimitée par les premier et troisième quartiles et partagée par la médiane.
- de deux moustaches qui relient les quartiles aux valeurs extrêmes de la série. La hauteur de la boîte est arbitraire.


La superposition de boîtes à moustaches peut être utile pour comparer plusieurs séries associées à un même caractère sur des populations différentes.

 

Moyenne d'une série statistique

Soit (xk,nk) où k∈N vérifie 1≤k≤p une série statistique dont les valeurs distinctes x1, ..., xp ont pour effectifs n1,...np et pour fréquences ƒ1,...., ƒp.

La moyenne de la série (xk, nk) avec 1≤k≤p est le nombre noté m ou défini par :

où N = n1 + ......... + np, est l’effectif total de la série.

Dans le cas d’une série où les données sont regroupées en p classes, les formules récédentes s’appliquent en prenant pour xk le centre de la k-ième classe (c’est l’hypothèse de répartition uniforme).

Voici la répartition des tailles d’un groupe de 40 lycéens :

Exemple

La taille moyenne de ce groupe de lycéens est :


La taille moyenne de ce groupe est donc d’environ 1,66m.

 

De nouveaux paramètres...

On va associer à la moyenne d’une série statistique un nombre qui permet d’évaluer la dispersion des valeurs de la série autour de la moyenne.

Soit ( xk, nk ) avec 1≤k≤p une série statistique prenant les valeurs distinctes xk avec l’effectif nk et d’effectif total N.

La fonction

qui à tout nombre réel t associe la moyenne des carrés des écarts à t des valeurs de la série, admet un minimum atteint pour , où est la moyenne de la série.

Ce minimum est égal à

Démonstration

On a :


d'où en développant


En regroupant les termes en t et t², on obtient

ƒ(t) est donc de la forme : ƒ(t) = at² + bt + c

avec

le trinôme at² + bt + c admet un minimum atteint pour


La fonction ƒ admet donc un minimum atteint pour t =
et égal à

 

Variance et écart-type

Définition :

- Le nombre réel


où ƒk est la fréquence de la valeur xk s'appelle la variance de la série (xk, nk)

1≤k≤p

- Sa racine carrée s = √V s'appelle l'écart type de la série.

Remarques

- La variance est une somme de carrés. C’est donc une quantité positive. L’écart-type est donc bien défini.

- Dans le cas d’un regroupement en classes, les calculs sont effectués en choisissant pour chaque xk le centre de la classe correspondante.

- L’écart-type a la même unité que la série étudiée.

- L’écart-type mesure la dispersion des valeurs de la série autour de la moyenne.

Plus l’écart-type est petit, plus les valeurs de la série sont concentrées autour de la moyenne.