Skip to content

Café con IOT. Capítulo 5: Parámetros estadísticos descriptivos II

Share on twitter
Share on linkedin
Share on email
Share on whatsapp
Café con IOT Parámetros estadísticos descriptivos 2

En el capítulo de hoy avanzaremos en el tema abierto en el artículo anterior de Café con IOT: Café con IOT. Capítulo 4: Parámetros estadísticos descriptivos I.

Las fuerzas especiales

Ante la posibilidad de que el proceso de negociación fracase, se ha tomado la decisión de contar con el apoyo de las fuerzas especiales. Esta unidad es un cuerpo especializado en la acción, desarrollando su labor en ámbitos que van desde la dispersión de concentraciones o la reducción de sujetos peligrosos.

Por poner un ejemplo, entre sus últimos logros cuenta con la resolución de un caso en un restaurante-bar-cafetería-tasca. En esa ocasión un pincho de tortilla se merendó con pan a cuatro clientes y a un camarero-barman-que-al-mismo-tiempo-es-empleado, y tras su negativa a salir con las patatas en alto, se procedió a su ejecución con el uso de un microondas, una minipimer y dos turmix.

Una gráfica no tan bonita

Como vimos hace un par de artículos, intentar entender un conjunto de datos no es una tarea fácilmente abordable. Por eso, en el anterior artículo presentamos los parámetros estadísticos descriptivos, una serie de valores numéricos que nos ayudan a conocer y resumir el conjunto de valores que toman nuestros datos. También vimos una clasificación típica de los mismos, y desarrollamos el primero de esos tipos: las medidas de centralización. Hoy, veremos un segundo grupo de esta clasificación: los parámetros de dispersión. Un conjunto de estadísticos que nos permiten conocer cómo de amplios son los valores que toman los datos.

Follies, Parc de la Villette, Paris.
Follies, Parc de la Villette, Paris. Creado por el arquitecto deconstructivista Bernard Tschumi.

La desviación

La primera aproximación al cálculo de la dispersión suele plantearse midiendo la diferencia entre cada uno de los datos y un estadístico de centralidad. A esto lo llamamos desviación, y nos permite conocer cómo de concentrados o dispersos se encuentran nuestros valores respecto al centro.

Veamos un ejemplo muy sencillo de desviación frente a la media:

ValorMediaDesviación
141 – 4 = -3
242 – 4 = -2
242 – 4 = -2
545 – 4 = 1
545 – 4 = 1
646 – 4 = 2
747 – 4 = 3

El problema que tiene calcular la desviación de los valores frente a la media es que si sumamos las desviaciones. el resultado siempre es cero. Veámoslo en nuestro ejemplo:

(-3) + (-2) + (-2) + 1 + 1 + 2 + 3 = 0

  • Varianza: 47482,14 vatios2

Una solución típica para evitar este cero, consiste en elevar los valores al cuadrado antes de sumarlos. Y si esta suma la dividimos entre el número de datos que tenemos, obtenemos la varianza.

ValorMediaDesviaciónDesviación al cuadrado
14-39
24-24
24-24
5411
5411
6424
7439

Si sumamos los valores de la última columna y los dividimos entre 7 (que es la cantidad de datos que tenemos), obtenemos que la varianza de nuestro ejemplo es 4,57, y con esto parece que hemos resuelto el problema del cero.

  • Desviación típica: 217,904 vatios

Ahora bien, si nuestra media es 4, y tenemos valores que se desvían como mucho 3 unidades de la media, resulta poco intuitivo entender lo que significa que el estadístico elegido para medir su dispersión vale 4,57.

Por otro lado, hay un problema que he estado evitando tratar hasta el momento. Los datos que manejamos no son meros números sacados de un cuaderno de ejercicios. En nuestro caso, son medidas, es decir valores numéricos acompañados de algún tipo de unidad. Así pues, al elevar nuestros datos al cuadrado, se eleva al cuadrado su unidad, y esto hace aún más difícil interpretar la varianza.

Supongamos que en nuestro ejemplo, lo que medimos son humanos. Así tenemos 1 humano, 2 humanos, … 7 humanos, con una media de 4 humanos y una varianza de 4,57 humanos al cuadrado.

Una posible solución es deshacer la operación de elevar los valores al cuadrado mediante la aplicación de una raíz cuadrada a la varianza. A esto lo llamamos desviación típica, y es el estadístico de dispersión más comúnmente usado. En nuestro caso valdría 2,13 humanos, lo que podríamos interpretar como que típicamente tenemos 4 humanos y nos desviamos un par de humanos arriba o abajo (de 2 a 6 humanos).

La Différance

El 27 de enero de 1968 Jacques Derrida pronuncia su discurso sobre la différance, un neologismo que juega con la ambigüedad de su sonoridad en francés y que evoca al polisémico verbo différer. En español encontraríamos que este término se relaciona tanto con diferencia, en el sentido de diferente o distinto, como con diferido, en el sentido de algo que ocurre con un desfase temporal, algo pospuesto.

Hay mucho que comentar sobre el término, pero lo que me interesa destacar, es cómo este tipo de ideas plasman la diferencia que existe entre el significado y el significante, entre lo que queremos decir y lo dicho propiamente, entre la idea y la palabra, o entre lo dicho y lo escuchado, entre lo escrito y lo leído.

Si digo “casa”, ¿tú qué entiendes?. Hogar, edificio, quizá chabola, o mansión, puede que casa de acogida o de comidas, a lo mejor entiendes Gryffindor o Stark, o entiendes que alguien oficia una boda, o, si eres de una región donde se sesea, quizá pienses en cazar brujas. A mí me gusta pensar que el banco del parque es ‘casa’ cuando juego al pilla-pilla.

Las diferenciación extrema hace imposible la comunicación, y también la estadística. ¿Sabías que, como dice Eduardo Sáenz de Cabezón, yo tengo más ojos que la media (y posiblemente tú también)?. Si damos por hecho que se pueden tener 0, 1 o 2 ojos, la media debe ser menor a 2. Pero esto es solo un truco. Lo que me interesa es la discrepancia entre lo representado y su representación. Entre 0 y 1 hay la misma diferencia que entre 1 y 2. Pero entre 0 y 1 ojo, no hay la misma diferencia que entre 1 y 2 ojos.

Después de leer a Derrida, habrá que leer a Saramago.

Dispersiones de los parámetros estadísticos descriptivos

Existen otros estadísticos de dispersión que podemos calcular según lo que necesitemos saber de los datos o el uso que vayamos a hacer de ellos: desviación típica winsorizada, la varianza media de porcentaje ajustado, la varianza media biponderada, la diferencia absoluta media, la desviación estándar de distancia, la diferencia media relativa, la varianza de Allan, la varianza de Hadamard, el coeficiente de dispersión cuartil… Pero veamos sólo algunos casos básicos:

  • Desviación absoluta mediana: 0,167699 vatios

Otra forma de afrontar el problema de las desviaciones, consiste en emplear la mediana como referencia de centralidad. Este es el caso de la desviación absoluta mediana, que es la mediana de los valores absolutos de las diferencias entre los valores de los datos y su mediana. Se obtiene así un estadístico de dispersión robusto que se ve menos afectado por los valores anómalos o extremos.

Para nuestro ejemplo, obtenemos que la desviación absoluta mediana vale 2, es decir, nuestros datos se centran en 5 humanos y se desvían 2 humanos arriba o abajo (entre 3 y 7 humanos).

  • Rango: 1772,588 vatios

El rango pertenece a un grupo de medidas conocido como escalas, que nos indican cuán alejados pueden estar nuestros datos. Su cálculo es sencillo. al valor máximo le restamos el valor mínimo, por lo que en el ejemplo que estamos siguiendo, el rango sería 6 humanos.

  • Rango intercuartílico: 0,335398 vatios

 El rango intercuartílico es una de las versiones robustas de las escalas. Si asimilamos el valor mínimo al 0% de nuestros datos, y el valor máximo al 100%, el rango intercuartílico se calcula restando el valor correspondiente al 75% de los datos menos el correspondiente al 25% (esto lo veremos mejor en el siguiente artículo de la serie). Así, en nuestro ejemplo, podemos decir que la mitad central de los datos se diferencia como mucho en 3,5 humanos.

  • Coeficiente de variación: 307,0466

Todas los estadísticos anteriores plantean un problema: no permiten comparar cómo de dispersos son los datos entre variables de distintas medidas o entre variables de la misma medida con grandes diferencias de magnitud. Por ejemplo, con los estadísticos anteriores no podemos saber si los humanos son más homogéneos en lo que respecta al peso o a la altura. O no podemos saber si el peso de los humanos es más heterogéneo que el de los elefantes. Por eso, en ocasiones es necesario emplear estadísticos de dispersión relativos, que son medidas independientes de la escala y carecen de unidades.

Este es el caso del coeficiente de variación, que se calcula dividiendo la desviación típica entre la media, y multiplicando por 100. Así, para nuestro ejemplo de humanos, el coeficiente de variación es de 57,73503. Es decir, nuestro ejemplo varía unas 5 veces menos que el consumo eléctrico de la máquina de café de Future Space.

Concentración de valores en torno al centro: Manifestaciones de las “manos blancas”.

¿Y qué nos queda por conocer sobre los estadísticos que explican el consumo eléctrico de la máquina de café?

Lo veremos en las siguientes entregas de Café con IOT

Comparte el artículo

Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on email
Email
Share on whatsapp
WhatsApp

Una nueva generación de servicios tecnológicos y productos para nuestros clientes