Café con IOT. Capítulo 4: Parámetros estadísticos descriptivos I

Tras los capítulos anteriores de un café con IoT (Capítulo 0: Una receta de hacktivismo interno, Capítulo 1: Los flujos de NiFi, Capítulo 2: Los datos en bruto y Capítulo 3: Ver todos los datos en una gráfica) hoy hablaremos sobre las medidas de centralización en estadística descriptiva.

El negociador

Pese a la política de no negociación, se ha hecho necesaria la intermediación de Danny Roman y de Chris Sabian para establecer una comunicación apropiada con el grupo de hacktivistas adictos a la leche condensada. La única declaración que hemos podido obtener ha sido:

“¡Nunca digas no a alguien que tiene rehenes!, ¡Está en el manual!”

Hasta el momento, la presencia de rehenes era totalmente desconocida, y esta declaración ha provocado todo un escándalo entre los periodistas presentes.

¡Ha entrado en escena el negociador, señora! Le negociamos la hipoteca, le negociamos el divorcio, le negociamos lo que haga falta. ¡El negociador……! ¡Ha entrado en escena el negociador!

Una gráfica no tan bonita

Como vimos en el artículo anterior, queda claro que asimilar más de 5 millones de datos de un sólo vistazo es algo complicado. Así pues, va siendo hora de recurrir a una herramienta que nos permita entender los datos que tenemos entre manos: la estadística.

Es más, existe una parte específica de la estadística especializada en ayudar a entender un conjunto de datos: la estadística descriptiva. Una rama de la estadística que se encarga de ofrecer resúmenes de conjuntos de datos, tanto gráficos como numéricos, con los que poder afrontar la comprensión general de los mismos.

Así pues, hoy nos centraremos en la parte numérica de la estadística descriptiva, es decir, los parámetros estadísticos descriptivos.

Parámetros estadísticos descriptivos

Los parámetros estadísticos descriptivos se suelen clasificar en función del tipo de información que dan sobre el conjunto de los datos estudiado. Los aspectos de interés más frecuentes son los siguientes:

Centralidad: Valores representativos del conjunto en trono a los que se agrupan los datos.
Dispersión: Medida de cuán variados son los datos, indicando cuánto se concentran los datos en torno al centro.
Posición: Valores que dividen a los datos ordenados en grupos con la misma cantidad de observaciones

Además, existen otras categorías secundarías, como los estadísticos de forma o los de proporción. Pero hoy nos enfocaremos en el primer tipo de ellos, los parámetros de centralidad.

STA- y GERBH-

La raíz indoeuropea *sta- significa ‘estar de pie’, y la podemos encontrar en palabras como sistema, instituto, epistemología, destino, estado, sustancia, estatua, tejido, estática, solsticio, testigo, restaurar, metástasis, resistencia, establecer, estación, sustantivo, estable, insistir, estatura, institución, estambre, restaurante, obstinado, existir, armisticio, poste o estandarte. Por supuesto, también se encuentra en estadística, ya que esta rama de las matemáticas, nació como la ciencia del estado, a la que también se llamó aritmética política.

Por su parte, la raíz *gerbh-, que significa ‘rascar’ o ‘arañar’, nos lleva a los orígenes de la escritura, a una época en la que los dibujos se fueron convirtiendo en letras, ya que hace referencia a la forma de imprimir marcas en la arcilla, para escribir o dibujar símbolos. Así pues, podemos encontrar esta raíz, transformada en la raíz griega *gra- (γρά), en las palabras gramática y gráfica, así como en demografía, grafo, autógrafo, crucigrama, pentagrama, bolígrafo…

Por cierto, existen algunas discrepancias sobre el origen de la escritura (*gerbh-), pero es casi seguro que si leéis sobre el tema encontréis alguna historia en la que se cuenta que está relacionada con el cobro de impuestos o el comercio entre estados (*sta-). Una de las más comunes hace referencia a que la escritura sustituyó a un sistema anterior empleado para contar ganado y basado en esferas de barro llamadas, casualmente, calculi (por eso contar y tener piedras en el riñón son cosas tan parecidas).

Medidas de centralización

Los parámetros estadísticos descriptivos de centralización permiten obtener un valor que represente a todos los datos, calculando, por distintos métodos, el centro de los valores estudiados:

Media: 70,96772 vatios

Normalmente la identificamos con media aritmética, aunque existen otras medias posibles (armónica, cuadrática, geométrica…). De esta forma, se calcula como el cociente entre la suma de todos los datos y la cantidad de datos observados.
Está relacionada con la esperanza matemática, que es la tendencia de los resultados de un experimento al ser repetirlo una gran cantidad de veces. Por ejemplo, la esperanza al tirar un dado de 6 caras es 3,5 (la suma de los valores de todas sus caras dividida por el número de caras del dado):
1 + 2 + 3 + 4 + 5 + 66= 3.5
Un caso interesante, en el que el valor empleado para resumir los datos, resulta ser un valor imposible de encontrar en los propios datos (no podemos obtener un 3,5 en la tirada de un dado).

También se relaciona con el centro de masas de un objeto, lo que tiene relevancia, por ejemplo, en cálculo de estructuras arquitectónicas. Pero eso, lo dejo para mi yo del pasado.

Mediana: 32,34943 vatios

La mediana hace referencia literalmente a lo que está en medio. Se calcula ordenando los valores de menor a mayor, y cogiendo aquél que se encuentre en la posición central. Es, por lo tanto, el valor en el que se superan la mitad de las observaciones. O dicho de otro modo, aquél valor que permite separar a la mitad de los datos más bajos de la mitad de datos más altos.

Si la media es el valor estadístico más famoso y usado (aunque peor entendido), la mediana es el más olvidado. Sin embargo, tiene una propiedad muy interesante que lo hace muy atractivo para los estadísticos: la robustez. Una propiedad gracias a la cual muchas veces es preferible emplear la mediana en lugar de la media. Veamos este concepto con un ejemplo.

Imaginemos una lista ordenada con los números del 0 al 100:

0,1,2,3,4,5,…,96,97,98,99,100

Tanto su media como su mediana valen 50. Ahora bien, cambiemos el valor de uno de los números. Por ejemplo, el número 25 pasa a ser el 26, por lo que tenemos dos 26 y ningún 25:

0,1,2,3,4,5,…,23,24,26,26,27,28,…,96,97,98,99,100

Ahora nuestra mediana sigue siendo 50, ya que es número que sigue estando en mitad de la lista, pero la media ha cambiado un poco, y ahora es 50,01. Vayamos más allá. Supongamos que lo que cambiamos es el 100 por el número 1.000.000:

0,1,2,3,4,5,…,96,97,98,99,1.000.000

En este caso, seguiríamos teniendo al número 50 en la posición central (mediana), pero nuestra media sería 10.049. Podemos ver, que el valor de la media cambia con el cambio de, tan solo, un dato. Por su parte, la mediana puede llegar a resistir el cambio de hasta la mitad de los datos. A esta capacidad es a la que se llama robustez, y tiene una enorme relevancia, especialmente en la construcción de modelos predictivos.

Moda: 0 vatios

La moda es el tercer estadístico de tendencia central que se conoce de forma general (es parte del temario de la educación obligatoria). Se obtiene simplemente determinando el valor más frecuente de una variable y posiblemente se trate del más peculiar de los tres.

Para poder calcularlo es necesario que la variable de estudio tenga unos valores definidos que puedan repetirse cierta cantidad de veces. Por ello, no siempre puede calcularse para variables numéricas. Aunque, a su vez, esto permite que pueda ser calculado para variables categóricas (color de los coches, tallas de ropa…). Es el único estadístico de centralidad que, al ser calculado, puede resultar no tener ningún valor, tener sólo uno o tener varios. Así, se dan casos en los que existen varias modas cuando distintos valores se repiten el mismo número de veces. Mientras que no tenemos moda si todos los valores se repiten la misma cantidad de veces. Por último, hay que destacar que la moda puede estar muy alejada del centro de una distribución (como en nuestros datos, cuya moda es 0).

Parámetros estadísticos descriptivos — Todo estado social supone… un cierto número y un cierto orden de delitos, siendo éstos meramente las consecuencias necesarias de su organización.
Sobre el hombre y el desarrollo de las facultades humanas: Ensayo sobre física social
1835, Adolphe Quetelet, uno de los padres de la estadística.

Así pues, con los datos de centralidad del consumo eléctrico de la máquina de café, podemos decir que la cantidad de vatios (medidos con una precisión de 5 decimales) que más habitualmente consume la máquina es 0 vatios, si bien, cabe esperar que su consumo general sea de 70,96772 vatios, aunque su consumo típico está entorno a los 32,34943 vatios.

O dicho de otra manera.

Si el consumo de la máquina fueran números de lotería, la mejor opción es apostar al 0, ya que en el bombo del sorteo hay más bolas con este número que con cualquier otro.

Si, por el contrario queremos prever el coste de la factura por consumo eléctrico de la máquina, debemos asumir que consume continuamente 70,96772 vatios.

Por último, si estuviéramos en un concurso en el que tuviéramos que predecir el valor del consumo eléctrico en un momento determinado, y nos fueran quitando dinero del premio en relación al error cometido en la predicción, llegaríamos con más dinero al final del concurso si siempre decimos 32,34943 vatios, es decir, si damos como respuesta en todas las rondas la mediana, en lugar de dar la media o la moda.

¿Qué otros parámetros estadísticos descriptivos podremos usar para conocer el consumo eléctrico de la máquina de café?

Lo veremos en las siguientes entregas de Café con IOT

Fugas de datos empresariales: ¿Cómo podemos protegernos mejor?

OSINT contra el tráfico de drogas

La Inteligencia Artificial en España: La transformación Digital en Salud, Agricultura y Manufactura

OSINT para LEA’s y Departamentos de Seguridad

X Edición de MorterueloCon: seguridad informática con sabor conquense

Formado como arquitecto, reformado como diseñador web y transformado en analista de datos. En mi cabeza habita un batiburrillo de información sobre lingüística, cálculo de estructuras, historia del arte, algebra, neuroiciencia, sociología, estadística, dibujo, inteligencia artificial... Pero si arañas un poco, verás que lo que realmente soy es un anárquico homo ludens apasionado de los juegos. «Si no puedo bailar, tu revolución no me interesa» - Emma Goldman -

Café con IOT. Capítulo 4: Parámetros estadísticos descriptivos I

El negociador

Una gráfica no tan bonita

Parámetros estadísticos descriptivos

STA- y GERBH-

Medidas de centralización

Fugas de datos empresariales: ¿Cómo podemos protegernos mejor?

OSINT contra el tráfico de drogas

La Inteligencia Artificial en España: La transformación Digital en Salud, Agricultura y Manufactura

OSINT para LEA’s y Departamentos de Seguridad

X Edición de MorterueloCon: seguridad informática con sabor conquense

SÍGUENOS

Comparte el artículo

Post Relacionados

Fugas de datos empresariales: ¿Cómo podemos protegernos mejor?

OSINT contra el tráfico de drogas

OSINT para LEA’s y Departamentos de Seguridad

Una nueva generación de servicios tecnológicos y productos para nuestros clientes

Sobre Future

Mundo Future

Tendencias

Canal del Informante

Café con IOT. Capítulo 4: Parámetros estadísticos descriptivos I

El negociador

Una gráfica no tan bonita

Parámetros estadísticos descriptivos

*STA- y *GERBH-

Medidas de centralización

SÍGUENOS

Comparte el artículo

Post Relacionados

Una nueva generación de servicios tecnológicos y productos para nuestros clientes

Sobre Future

Mundo Future

Tendencias

Canal del Informante

STA- y GERBH-