Corrélation

Quelle est la corrélation:

La corrélation signifie une similitude ou une relation entre deux choses, des personnes ou des idées . C'est une similitude ou une équivalence qui existe entre deux hypothèses, situations ou objets différents.

Dans le domaine des statistiques et des mathématiques, la corrélation fait référence à une mesure entre deux variables liées ou plus.

Le terme corrélation est un nom féminin qui provient du latin correlatione.

Le mot corrélation peut être remplacé par des synonymes tels que: relation, équation, lien, correspondance, analogie et connexion.

Coefficient de corrélation

En statistique, le coefficient de corrélation de Pearson (r), également appelé coefficient de corrélation produit-moment, mesure la relation entre deux variables au sein d'une même échelle métrique.

Le coefficient de corrélation a pour fonction de déterminer l’intensité de la relation qui existe entre des ensembles connus de données ou d’informations.

La valeur du coefficient de corrélation peut varier entre -1 et 1 et le résultat obtenu définit si la corrélation est négative ou positive.

Pour interpréter le coefficient, il est nécessaire de savoir que 1 signifie que la corrélation entre les variables est parfaitement positive et -1, qu'elle est parfaitement négative . Si le coefficient est égal à 0, cela signifie que les variables ne dépendent pas les unes des autres.

En statistique, il y a aussi le coefficient de corrélation de Spearman, qui porte ce nom en l'honneur du statisticien Charles Spearman. La fonction de ce coefficient est de mesurer l'intensité de la relation entre deux variables, qu'elles soient linéaires ou non.

La corrélation de Spearman sert à évaluer si l’intensité de la relation entre les deux variables analysées peut être mesurée par une fonction monotone (fonction mathématique qui préserve ou inverse la relation d’ordre initial).

Calcul du coefficient de corrélation de Pearson

Méthode 1) Calcul du coefficient de corrélation de Pearson à l'aide de la covariance et de l'écart type.

S XY est la covariance;

S x et S y représentent l'écart type, respectivement, des variables x et y.

Dans ce cas, le calcul consiste d'abord à trouver la covariance entre les variables et l'écart type de chacune d'entre elles. La covariance est ensuite divisée par la multiplication des écarts-types.

Souvent, l’énoncé fournit déjà soit les écarts-types des variables, soit la covariance entre elles, simplement en appliquant la formule.

Méthode 2) Calcul du coefficient de corrélation de Pearson avec les données brutes (sans covariance ni écart-type).

Avec cette méthode, la formule la plus directe est la suivante:

Par exemple, en supposant que nous ayons des données avec n = 6 observations de deux variables: niveau de glucose (y) et âge (x), le calcul suit les étapes suivantes:

Étape 1) Construisez la table avec les données existantes: i, x, y et ajoutez des colonnes vides pour xy, x² et y²:

Étape 2: Multipliez x et y pour remplir la colonne "xy". Par exemple, à la ligne 1, nous aurons: x1y1 = 43 × 99 = 4257.

Étape 3: Augmentez les valeurs de la colonne x et enregistrez les résultats dans la colonne x². Par exemple, dans la première ligne, nous aurons x 1 2 = 43 × 43 = 1849.

Étape 4: Faites comme à l’étape 3, utilisez maintenant la colonne y et notez le carré de vos valeurs dans la colonne y². Par exemple, dans la première ligne, nous aurons: y 1 2 = 99 × 99 = 9801.

Étape 5: Obtenez la somme de tous les numéros de colonne et placez le résultat dans le pied de colonne. Par exemple, la somme de la colonne Age X est égale à 43 + 21 + 25 + 42 + 57 + 59 = 247.

Étape 6: Utilisez la formule ci-dessus pour obtenir le coefficient de corrélation:

Ainsi, nous avons:

Coefficient de corrélation de Spearman

Le calcul du coefficient de corrélation de Spearman est quelque peu différent. Pour cela, nous devons organiser nos données dans le tableau suivant:

1. Après avoir énoncé 2 paires de données, nous devons les introduire dans le tableau. Par exemple:

2. Dans la colonne "Classement A", nous classerons les observations de "Date A" de manière croissante, "1" étant la valeur la plus basse de la colonne, en (nombre total d'observations), la valeur la plus élevée de la colonne "Date ". Dans notre exemple c'est:

3. Nous faisons de même pour obtenir la colonne "Classement B", en utilisant maintenant les observations de la colonne "Données B":

4. Dans la colonne "d", nous indiquons la différence entre les deux classements (A - B). Ici le signal n'a pas d'importance.

5. Relevez chacune des valeurs de la colonne "d" et notez-la dans la colonne d²:

6. Ajoutez toutes les données de la colonne "d²". Cette valeur est Σd². Dans notre exemple Σd² = 0 + 1 + 0 + 1 = 2

7. Nous utilisons maintenant la formule de Spearman:

Dans notre cas, n est égal à 4, car nous examinons le nombre de lignes de données (qui correspond au nombre d'observations).

8. Enfin, nous remplaçons les données de la formule précédente:

Régression Linéaire

La régression linéaire est une formule utilisée pour estimer la valeur possible d'une variable (y) lorsque les valeurs d'autres variables (x) sont connues. La valeur de "x" est la variable indépendante ou explicative et "y" est la variable dépendante ou la réponse.

La régression linéaire permet de vérifier comment la valeur de "y" peut varier en fonction de la variable "x". La ligne contenant les valeurs de la vérification de la variance est appelée ligne de régression linéaire.

Si la variable explicative "x" a une valeur unique, la régression sera appelée régression linéaire simple .