Data Science III-C: Estadística descriptiva bidimensional. Dos variables cuantitativas. Correlación Lineal

Representación de la covarianza mediante áreas

En esta serie de artículos dedicados a la Ciencia de Datos, ya hemos publicado los capítulos:
$$ (y_i – \bar{y}) = k \cdot (x_i – \bar{x}) $$
Donde $k$ es la pendiente de la recta.

 

Numerador
El numerador de la fórmula de $r$ es $ \sum (x_i-\bar{x})(y_i-\bar{y}) $, pero si $(y_i – \bar{y}) = k \cdot (x_i – \bar{x}) $, entonces podemos expresarlo de esta otra forma:
$$ \sum (x_i-\bar{x})(k \cdot (x_i – \bar{x})) = \sum k \cdot (x_i-\bar{x})^2 = k \sum (x_i-\bar{x})^2 $$
Denominador
El denominador de $r$ es
$$\sqrt{\sum (x_i – \bar{x})^2} \cdot \sqrt{\sum (y_i – \bar{y})^2}$$
  • La parte de $x$ queda igual: $\sqrt{\sum (x_i – \bar{x})^2}$
  • La parte de $y$ podemos sustituirla por $$ \sqrt{\sum (k \cdot (x_{i}-\bar{x}))^2} = \sqrt{k^2 \sum (x_{i}-\bar{x})^2} = |k| \sqrt{\sum (x_{i}-\bar{x})^2} $$

Si multiplicamos ambar partes:

$$\sqrt{\sum (x_i – \bar{x})^2} \cdot |k| \sqrt{\sum (x_{i}-\bar{x})^2} = |k| \sum (x_i-\bar{x})^2 $$

La expresión final de $r$, tras estas sustituciones, queda así:

$$r = \frac{k  \sum (x_i-\bar{x})^2}{|k|  \sum (x_i-\bar{x})^2}$$
  • Si $k$ es positivo, el resultado es $1$
  • Si $k$ es negativo, el resultado es $-1$