Data Science II-C: Estadística descriptiva unidimensional. Medidas de dispersión

Dispersión. Ejemplo de datos con la misma media, y distinta dispersión.

Felipe Maggi

Lenguaje de programación: Python

En esta serie de artículos dedicados a la Ciencia de Datos, ya hemos publicado los capítulos:

Data Science I: Población, muestra, experimentos y tipos de variables.
Data Science II-A: Estadística descriptiva unidimensional. Tablas de frecuencia y gráficos de distribución.
Data Science II-B: Estadística descriptiva unidimensional. Medidas de tendencia central.

Vamos a tratar ahora, dentro de la estadística descriptiva unidimensional, las medidas de dispersión.

Seguimos en un terreno que parece de sobra conocido, y los que lean esto podrán pensar que el tema no aporta nada nuevo. Esencialmente, esto es cierto. En mi defensa diré que, como veremos, las cosas empiezan a presentar más bemoles de los que a menudo se tienen en cuenta.

También podría justificar la necesidad de tratar este tema como ya he hecho otras veces: si la base no es la adecuada, todo lo que se construya después es inestable.

Finalmente, quiero pensar que en esta serie de artículos, aunque los temas estén superados a nivel teórico desde hace cientos de años, al menos el acercamiento a los mismos aporta algo, en términos de compresión.

En este artículo, de nuevo nos guiaremos, en cuanto a estructura, por lo expuesto en material de Máster de Big Data y Data Science de la Universidad de Barcelona, cuya autora es Dolores Lorente porque, desde nuestro punto de vista, organiza la materia de forma adecuada.

Los conceptos estadísticos son de dominio general, pero cuando tengamos que recurrir a una forma concreta de plantear las cosas, haremos uso, mayoritariamente, de las definiciones expuestas en el libro Estadística general: lo esencial, de Johnson & Kuby. Según estos autores:

Las medidas de dispersión son valores numéricos que describen la variabilidad de los datos.

Otra forma de definirlas es diciendo que nos dan una idea de lo alejados que están los datos entre sí. La dispersión mínima puede ser cero (cuando la variable adquiere el mismo valor en todos los casos), pero no existe una dispersión máxima, que puede llegar a ser arbitrariamente grande.

Las medidas de dispersión principales son:

El rango
La varianza
La desviación estándar

Antes de entrar de lleno en cada una de ellas, vamos a suponer que estamos trabajando con un conjunto de 3 datos: las notas de los exámenes de matemáticas de un alumno concreto, de un trimestre concreto de un año académico concreto. Por comodidad, vamos a considerar este conjunto de datos como la población.

Para que un estadístico no se lleve las manos a la cabeza si lee esto, diremos que una muestra de tres datos puede no ser representativa (por eso hemos definido nuestro conjunto como la población).

Esto nos facilitará varias cosas: la visualización de los datos, los cálculos para los ejemplos y, en última instancia, la compresión de los conceptos, más allá de la aplicación directa de las fórmulas sin entender de dónde salen, o qué significan.

Planteamiento del problema

Supongamos que nuestro alumno ha hecho tres exámenes en el trimestre, y su nota media es de 5. Esto nos dice que ha aprobado el trimestre, pero poco más. Sus notas podrían haber sido, por ejemplo:

5, 5 y 5
4, 5 y 6
0, 5, 10

En los tres casos, la media aritmética es la misma: μ = 5. Recordemos que la media poblacional, matemáticamente hablando, se define como:

$$μ = \frac{\sum x}{N}$$

Es decir, la suma de todos los valores que adquiere la variable x, dividida por el número total de valores.

Sin embargo, la dispersión de los datos es muy distinta en cada caso. Comprobémoslo primero visualmente:



import matplotlib.pyplot as plt

# Puntos a destacar en el eje X
x_highlight = [5, 5, 5]
y_highlight = [0, 0, 0]

# Configuración de la gráfica
plt.figure(figsize=(8, 1))
plt.axhline(0, color='black')  # Dibuja el eje X
plt.scatter(x_highlight, y_highlight,
            color='red')  # Destaca los puntos seleccionados

# Etiquetas para los puntos destacados
for i, txt in enumerate(x_highlight):
    plt.annotate(f'{txt}', (x_highlight[i], y_highlight[i]),
                 textcoords="offset points", xytext=(0,10), ha='center')

# Configuración del eje X de 0 a 10
plt.xlim(0, 10)
plt.xticks(range(-1, 12))  # Marca todos los puntos de 0 a 10
plt.yticks([])  # Elimina los valores en el eje Y
plt.xlabel("Eje X")
plt.title("Notas 5, 5 y 5")

plt.show()


import matplotlib.pyplot as plt

# Puntos a destacar en el eje X
x_highlight = [4, 5, 6]
y_highlight = [0, 0, 0]

# Configuración de la gráfica
plt.figure(figsize=(8, 1))
plt.axhline(0, color='black')  # Dibuja el eje X
plt.scatter(x_highlight,
            y_highlight, color='red')  # Destaca los puntos seleccionados

# Etiquetas para los puntos destacados
for i, txt in enumerate(x_highlight):
    plt.annotate(f'{txt}', (x_highlight[i], y_highlight[i]),
                 textcoords="offset points", xytext=(0,10), ha='center')

# Configuración del eje X de 0 a 10
plt.xlim(0, 10)
plt.xticks(range(-1, 12))  # Marca todos los puntos de 0 a 10
plt.yticks([])  # Elimina los valores en el eje Y
plt.xlabel("Eje X")
plt.title("Notas 4, 5 y 6")

plt.show()


import matplotlib.pyplot as plt

# Puntos a destacar en el eje X
x_highlight = [0, 5, 10]
y_highlight = [0, 0, 0]

# Configuración de la gráfica
plt.figure(figsize=(8, 1))
plt.axhline(0, color='black')  # Dibuja el eje X
plt.scatter(x_highlight,
            y_highlight, color='red')  # Destaca los puntos seleccionados

# Etiquetas para los puntos destacados
for i, txt in enumerate(x_highlight):
    plt.annotate(f'{txt}', (x_highlight[i], y_highlight[i]),
                 textcoords="offset points", xytext=(0,10), ha='center')

# Configuración del eje X de 0 a 10
plt.xlim(0, 10)
plt.xticks(range(-1, 12))  # Marca todos los puntos de 0 a 10
plt.yticks([])  # Elimina los valores en el eje Y
plt.xlabel("Eje X")
plt.title("Notas 0, 5 y 10")

plt.show()

Cuando las notas son todas iguales (5, 5 y 5), están todas en el mismo punto. La dispersión es cero.

Si las notas son 4, 5 y 6, la media también es 5, pero existe cierta distancia entre las notas. Si tomamos como referencia la media, 4 y 6 están a una unidad de distancia, y 5 está a cero unidades de distancia.

Finalmente, si las notas son 0, 5 y 10, y de nuevo tomando como punto de referencia la media, el 0 y el 10 están a 5 unidades de distancia, aunque el 5 permanece a 0 unidades de distancia.

Rango

Si pintamos una raya recta entre el valor mínimo y el máximo (en términos matemáticos, sería un segmento o intervalo), y medimos la longitud de la misma:

En el primer caso (5, 5, 5) dicha longitud es 0.
En el segundo, con las notas 4, 5 y 6, la longitud es 2
En el tercero (0, 5, 10), la longitud es 10.

El rango es, por tanto, la diferencia entre el valor máximo (H) y el valor mínimo (L), y «nos dice el tamaño del intervalo en el que caen todos los datos» (Johnson & Kuby).

$$rango = H -L$$

En el primer caso es de 0 unidades: 5 – 5 = 0
En el segundo caso es de 2 unidades: 6 – 4 = 2
En el tercer caso es de 10 unidades: 10 – 0 = 10

Ya con esto podemos decir que los datos del segundo caso están más dispersos que el primero, pero menos dispersos que el tercero.

Varianza

La fórmula de la varianza de la población está en todas partes. Vamos a empezar por ella para entender el concepto, y luego ampliarlo a casos más comunes, pero teóricamente más complejos, como la varianza muestral (o cuasivarianza).

La varianza poblacional se define matemáticamente como:

$$\sigma^2 = \frac{\sum (x – \mu)^2}{N}$$

Es decir, la varianza es la suma de las diferencias con respecto a la media elevadas al cuadrado, divida por el número de datos. No deja de ser un «promedio» de las distancias con respecto a la media. En concreto, es la media aritmética de dichas diferencias.

La distancia de cada valor con respecto a la media se eleva al cuadrado, para evitar que las distancias positivas cancelen a las negativas. Como la media $\mu$ se calcula sumando todos los valores de $x$, la suma de las desviaciones $\sum (x – \mu)$ es siempre cero (siempre que usemos el valor exacto de $\mu$):

Con las notas 5, 5, 5: $(5-5)+(5-5)+(5-5)=(0)+(0)+(0)=0$
Con las notas 4, 5 y 6: $(4-5)+(5-5)+(6-5)=(-1)+(0)+(1)=0$
Con las notas 0, 5, 10: $(0-5)+(5-5)+(10-5)=(-5)+(0)+(5)=0$

Elevando al cuadrado estas distancias, el problema se resuelve. La varianza, en cada uno de los casos de ejemplo, es:

Notas 5, 5 y 5

$$\frac{(5-5)^2 + (5-5)^2 + (5-5)^2}{3} = \frac{(0)^2 + (0)^2 + (0)^2}{3} = 0$$

Notas 4, 5 y 6

$$\frac{(4-5)^2 + (5-5)^2 + (6-5)^2}{3} = \frac{(-1)^2 + (0)^2 + (1)^2}{3} = \frac{2}{3} \approx 0.67$$

Notas 0, 5 y 10

$$\frac{(0-5)^2 + (5-5)^2 + (10-5)^2}{3} = \frac{(-5)^2 + (0)^2 + (5)^2}{3} = \frac{50}{3} \approx 16.67$$

Desviación estándar

También conocida como desviación típica, la desviación estándar es la raíz cuadrada de la varianza:

\sigma = \sqrt{\sigma^2}

Debemos tener en cuenta que la varianza, al calcularse elevando al cuadrado las diferencias con respecto a la media, está en «unidades cuadradas». Siguiendo con nuestro ejemplo, en el que las unidades de las notas son «puntos», la varianza en el caso de las notas 4,5 y 6 sería 0.67 puntos cuadrados, lo que no tiene mucho sentido.

Al calcular la raíz cuadrada de la varianza, estamos de alguna manera deshaciendo el «truco» matemático que usamos para evitar que las diferencias se cancelen entre sí, y volviendo a las unidades originales. Así, las desviaciones típicas de nuestros ejemplos son:

Notas 5,5 y 5: $\sigma = \sqrt{0} = 0 $
Notas 4, 5 y 6: $\sigma = \sqrt{\frac{2}{3}} \approx 0.82 $
Notas 0,5 y 10: $\sigma = \sqrt{\frac{50}{3}} \approx 4.08 $

Si nos fijamos, esto ya tiene cierta lógica. Analicemos los casos segundo y tercero.

Cuando las notas son 4, 5 y 6 la desviación típica es aproximadamente de 0,82 puntos. Recordemos que tenemos tres notas, dos de las cuales se alejan de la media 1 punto (el 4 y el 6), y otra que no se aleja en absoluto (el 5). Es lógico que la desviación típica sea cercana a 1, pero no 1, porque hay un caso en el que la distancia es cero.

Cuando las notas son 0, 5 y 10 la desviación típica es un poco mayor de 4 puntos. De nuevo, recordemos que tenemos tres notas, dos de las cuales se alejan de la media 5 puntos (el 0 y el 10), y otra que no se aleja nada (el 5).

Otras medidas de dispersión

Existen otras medidas de dispersión, menos conocidas y menos utilizadas, pero que vale la pena mencionar de pasada:

Desviación absoluta respecto a la media
Desviación absoluta respecto a la mediana

Desviación absoluta respecto a la media

Su fórmula es similar a la de la varianza, pero en lugar de elevar al cuadrado las diferencias con respecto a la media, se calcula el valor absoluto de la diferencia:

D_\mu = \frac{\sum |x – \mu|}{N}

Según explican Johnson & Kuby, «aun cuando esta medida particular de dispersión no se usa con frecuencia, nos indica la «distancia» media a la que están los datos desde la media«.

Desviación absoluta respecto a la mediana

Como la varianza y la desviación típica dependen de la media, y la media es muy sensible a los valores extremos, a veces es conveniente analizar la dispersión de los datos con respecto a la mediana, que es una medida de tendencia central que no es tan sensible a ese tipo de valores. La expresión matemática de la desviación absoluta respecto a la mediana de la población es:

Data Science II-C: Estadística descriptiva unidimensional. Medidas de dispersión

Felipe Maggi

Lenguaje de programación: Python

Planteamiento del problema

Rango

Varianza

Desviación estándar

Otras medidas de dispersión

Desviación absoluta respecto a la media

Desviación absoluta respecto a la mediana

Medidas de dispersión con respecto a la muestra

Varianza muestral

Desviación muestral estándar

¿Por qué n−1?

Muestra 1

Muestra 2

Muestra 3

Montecarlo 1

Montecarlo 2

Montecarlo 3

Un acercamiento simple al problema

¿Qué pasa cuando la muestra es grande?

Dos enfoques distintos

Dispersión relativa: el coeficiente de variación de Spearman

Bibliografía y referencias

Contacta

Formulario de contacto de la web datarmony.com	Responder a las personas que nos contactan desde el formulario electrónico de la web.
Cookies, píxel y tracking	Identificar problemas. Obtener datos estadísticos de la navegación de los usuarios. Retener las preferencias del usuario durante su permanencia en un sitio web.
Atención a los derechos de las personas	Atender las solicitudes de los ciudadanos en el ejercicio de los derechos que establece el Reglamento General de Protección de Datos.
Gestión de las comunicaciones recibidas por el canal de denuncias	Crear un canal interno de comunicación para permitir entregar información sobre prácticas irregulares para corregirlas y reparar los daños que hayan podido producir. Proteger a los ciudadanos que informen sobre acciones u omisiones que vulneren el ordenamiento jurídico, afecten a intereses financieros o incidan en el mercado interior.