Skip to article frontmatterSkip to article content

La géostatistique est une branche des statistiques dédiée à l’analyse des données spatiales et spatio-temporelles. Elle permet notamment de modéliser et de prédire les distributions de probabilité de variables telles que les teneurs en minerai. Pour bien en saisir les principes, il est essentiel de maîtriser la terminologie et les concepts fondamentaux des probabilités et des statistiques.

Variable aléatoire, fonction de densité et fonction de répartition

Une variable aléatoire (v.a.) est une fonction mathématique qui associe un résultat numérique à chaque issue possible d’une expérience aléatoire. Bien que les valeurs possibles de la v.a. soient connues, sa réalisation précise ne peut être déterminée a priori sans observation directe. Par exemple : la teneur en cuivre d’une carotte de forage de 1 mètre, l’épaisseur d’une veine minéralisée, la concentration d’un polluant dans une nappe phréatique ou le pH de l’eau de pluie.

Même si la valeur exacte que prendra une variable aléatoire n’est pas connue, il est possible d’estimer la probabilité qu’elle prenne certaines valeurs.

Cette information est décrite à l’aide de la fonction de masse pX(x)p_X(x) pour les v.a. discrètes et de la fonction de densité fX(x)f_X(x), pour les v.a. continues. Dans ce contexte, nous nous concentrerons sur les variables aléatoires continues.

La fonction de densité fX(x)f_X(x) vérifie deux propriétés essentielles :

  1. Elle est positive partout :

    fX(x)0pour tout xRf_X(x) \geq 0 \quad \text{pour tout } x \in \mathbb{R}
  2. L’aire sous la courbe est égale à 1 (probabilité totale) :

    fX(x)dx=1\int_{-\infty}^{\infty} f_X(x) \, dx = 1

La probabilité que la variable aléatoire prenne une valeur comprise entre deux bornes aa et bb, soit P(aXb)P(a \leq X \leq b), est donnée par l’intégrale de la fonction de densité entre ces deux bornes :

P(aXb)=abfX(x)dxP(a \leq X \leq b) = \int_a^b f_X(x) \, dx

Cela mène à la définition de la fonction de répartition, notée FX(x)F_X(x), qui représente la probabilité que la variable aléatoire XX prenne une valeur inférieure ou égale à xx :

FX(x)=P(Xx)=xfX(t)dtF_X(x) = P(X \leq x) = \int_{-\infty}^{x} f_X(t) \, dt

La fonction de répartition est une fonction croissante, bornée entre 0 et 1, et continue pour les variables continues. Elle est particulièrement utile pour visualiser la distribution cumulative des probabilités et pour déterminer des quantiles, comme la médiane (valeur pour laquelle FX(x)=0,5F_X(x) = 0{,}5).

Mise en contexte

Soit Z(x)Z(x) une variable aléatoire représentant la valeur d’intérêt (comme une teneur, une température, ou un niveau piézométrique) à une position spatiale xx. Bien qu’une valeur réelle existe à ce point, la géostatistique considère cette valeur comme aléatoire tant qu’elle n’a pas été mesurée. Ainsi, à partir des informations disponibles, on définit la probabilité que cette valeur prenne une certaine plage de valeurs, via la fonction de répartition conditionnelle :

F(z,x)=Prob{Z(x)zinformations}F(z, x) = \text{Prob} \left\{ Z(x) \leq z \mid \text{informations} \right\}

Cette formulation met en lumière que, en géostatistique, la fonction de répartition dépend explicitement de la localisation xx de la variable. Cela souligne le caractère régionalisé des variables aléatoires étudiées, c’est-à-dire leur dépendance à une position spatiale ou temporelle.

Mesures de tendance centrale

Les mesures de tendance centrale résument une distribution de probabilité par une valeur représentative des résultats possibles. Voici les principales :

Ces mesures peuvent différer selon la forme de la distribution. Par exemple, pour une distribution symétrique comme la loi normale, la moyenne, la médiane et le mode coïncident. Pour des distributions asymétriques (ex. : loi log-normale), ces mesures seront différentes.

Mesures de dispersion

Les mesures de dispersion décrivent la variabilité ou l’étendue des valeurs d’une variable aléatoire autour de sa moyenne. Elles sont essentielles pour comprendre l’incertitude et la répartition des données.

Estimation à partir d’un échantillon

L’estimation à partir d’un échantillon consiste à inférer les caractéristiques d’une population ou d’une distribution inconnue à partir de données observées. Ces estimations, basées sur des statistiques calculées à partir de l’échantillon, incluent les paramètres de tendance centrale, de dispersion, et la forme de la distribution de la variable.

Fonction de densité conjointe

Lorsqu’on considère plusieurs variables aléatoires, comme deux variables XX et YY, leur dépendance peut être représentée par une fonction de densité conjointe, notée fXY(x,y)f_{XY}(x,y). Cette fonction décrit la probabilité conjointe que XX prenne la valeur xx et YY prenne la valeur yy simultanément.

La condition de normalisation de cette fonction est la suivante :

fXY(x,y)dxdy=1\iint f_{XY}(x,y) \, dx \, dy = 1

Dans le cas de deux variables aléatoires, les mesures usuelles de dépendance sont la covariance et la corrélation :

La corrélation est une normalisation de la covariance, ce qui permet d’obtenir une plage de valeurs comprises entre [1,1][-1, 1]. Une valeur de 1 indique une dépendance linéaire positive parfaite, signifiant que XX et YY varient linéairement dans la même direction. Une valeur de -1 signifie une dépendance linéaire négative parfaite (quand XX augmente, YY diminue de manière parfaitement linéaire). Une valeur de 0 indique l’absence de dépendance linéaire entre XX et YY. Il est crucial de noter que si XX et YY sont indépendantes, alors leur covariance (et donc leur corrélation) est nulle ; cependant, l’inverse n’est pas toujours vrai (une corrélation nulle n’implique pas nécessairement l’indépendance, sauf dans des cas spécifiques comme la loi normale). La Fig. 1 montre différents scénarios de corrélation entre deux variables.

Différentes corrélations entre deux variables aléatoires X et Y.

Figure 1:Différentes corrélations entre deux variables aléatoires XX et YY.

Il est également important de noter que si XX et YY sont indépendantes, alors la covariance entre XX et YY est nulle, c’est-à-dire :

Cov(X,Y)=0\text{Cov}(X, Y) = 0

Propriétés

La variance de la somme de deux variables aléatoires XX et YY est donnée par :

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) + 2 \, \text{Cov}(X, Y)

De plus, la variance d’une combinaison linéaire de XX et YY est donnée par :

Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y)\text{Var}(aX + bY) = a^2 \, \text{Var}(X) + b^2 \, \text{Var}(Y) + 2ab \, \text{Cov}(X, Y)

Enfin, la variance de la somme pondérée de nn variables aléatoires X1,X2,,XnX_1, X_2, \dots, X_n est donnée par :

Var(i=1naiXi)=i=1nj=1naiajCov(Xi,Xj)\text{Var}\left( \sum_{i=1}^n a_i X_i \right) = \sum_{i=1}^n \sum_{j=1}^n a_i a_j \, \text{Cov}(X_i, X_j)

Ces relations sont fondamentales en géostatistique. Leur maîtrise est essentielle, car elles permettent de quantifier et de modéliser la dépendance entre variables, ce qui est crucial pour l’analyse et la prédiction des valeurs à des localisations non échantillonnées dans les contextes miniers de ce cours.