Tras los capítulos anteriores de un café con IoT, Capítulo 0: Una receta de hacktivismo interno, Capítulo 1: Los flujos de NiFi y Capítulo 2: Los datos en bruto, hoy hablaremos sobre el Capítulo 3: Ver todos los datos en una gráfica.
Comunicado de los hacktivistas adictos a la leche condensada
¿Te preocupan las cámaras y los micrófonos?
El Gran Hermano que nos espera, y que ya se está construyendo, no es el de 1984. No vamos a tener vigilantes poniendo su capacidad comprensiva en la interpretación de imágenes y sonidos. Ni vamos a tener censores que se lean detenidamente nuestros textos. No nos denunciarán nuestros hijos por opinar en contra del gobierno durante la cena. No habrá un Ojo o un Oído de Fuego Nórdico.
El control que nos espera no será ese. O, al menos, no será sólo ese.
Nos espera la monitorización en streaming del consumo de electricidad, del uso de datos en el móvil (o en el aparato wearable que llevemos), del ritmo cardíaco, la presión sanguínea y el índice de saturación de oxígeno en sangre…Nos espera el análisis de datos que, sin portar significado por sí mismos, resultan ser altamente significativos.
Una gráfica no tan fea
Estoy seguro de que tras los artículos previos de la serie estamos todos impacientes por ver de una vez por todas todos los datos. Pues… no tan rápido.
Posiblemente, la mejor forma de ver un conjunto de datos sea representarlos en una gráfica. En nuestro caso, podríamos representar en el eje horizontal el paso del tiempo, y en el vertical el valor de la potencia consumida. De esta forma, si, por ejemplo, quisiéramos representar 2 segundos (que es el intervalo entre una y otra medición de nuestro enchufe inteligente) en un milímetro del eje X, habría que estar dispuestos a tener una gráfica de algo más de 5 kilómetros (5.327,581 metros). Esto nos lleva a pensar que visualizar de golpe el conjunto de los datos no va a ser fácil, bonito o legible.
Aún así, aunque sólo sea por saciar la curiosidad, vamos a ver qué pasa si intentamos meter todos los datos en una gráfica de este tipo:
Desde luego, se trata de una gráfica muy fea, pero podemos sacarle algo de información. ¿Te atreves a interpretar la gráfica para ver qué información extraes de ella antes de seguir leyendo? :
- La gráfica es prácticamente un monolítico bloque negro que oscila entre un valor ligeramente superior al 0 y los 1500W.
- Existen huecos en el bloque negro, que se corresponden con periodos de ausencia de datos (finales de junio, primeros días de julio y principios de octubre).
- Aparecen una serie de picos pequeños en la parte inferior que deberán ser estudiados con más detalle.
- Por el contrario, en la parte superior de la gráfica, vemos unos peines normalmente compuestos por grupos de 5 picos que suelen ir seguidos de un par de picos mucho menos elevados. Aún desconociendo su significado (aunque algo ya podemos intuir), una serie de estas características (5+2, 5+2, 5+2…) representa claramente periodos semanales, con 5 días laborables y 2 del fin de semana.
- Prestando un poco de atención, podemos ver que a mediados de agosto lo que corresponde con la festividad del día 15, cayó en miércoles.
- Si prestamos más atención, se puede observar un “fin de semana largo” en la segunda semana de octubre, ya que ese viernes también fue festivo.
- Tras ese hueco de octubre, encontramos una semana en la que da la impresión de haber 6 días laborables y sólo uno festivo. Y una vez más, se trata de un dato con sentido, ya que esa semana se celebró un datathon en FutureSpace, y se permitió a los participantes usar la oficina durante el fin de semana (aunque, al parecer, sólo acudieron el sábado).
El dataísmo
De una manera un tanto informal, podemos clasificar los datos que sobre nosotros mismos generamos en estas tres categorías:
- Datos declarados: Son aquellos que has expuesto de forma directa y explícita. Por ejemplo, al abrirte una cuenta bancaria facilitas tu nombre, dirección, documento de identificación…
- Datos observados: Son datos que se pueden conocer sobre ti, sin que tú los compartas o generes de forma consciente. Por ejemplo, una entidad bancaria conoce dónde, cuándo y en qué cantidad sacas dinero de tu cuenta o realizas una compra con tarjeta.
- Datos inferidos: Son obtenidos a partir del estudio de los datos anteriores (observados y/o declarados). Por ejemplo, la entidad bancaria puede estudiar tus patrones de gasto y clasificarte en un grupo de riesgo de cara a determinar tu solvencia para pagar un préstamo.
¿Eres de los que deja una luz encendida en casa cuando no hay nadie para que los ladrones piensen que sí hay gente dentro? Puede parecernos una idea algo simple, pero seguro que nos parece peor la idea de poner directamente un cartel colgado de la ventana en el que diga: “Dentro de la casa hay 2 personas ahora mismo”.
Parece ser que tendemos a creer que los ladrones se fían más de los datos observados que de los datos declarados. Es decir, los datos que una persona comparte explicita y expresamente parecen menos “fiables” que los datos que, desde fuera, se obtienen sobre la persona. Podemos llegar incluso al punto de creer más en los datos observados e inferidos, y en los resultados de los algoritmos y métodos analíticos aplicados sobre ellos, que en lo que una persona exponga expresamente. Entonces, estaremos hablando de dataismo.
Fue el analista cultural David Brooks, quien en el artículo «The Philosophy of Data» (del New York Times en 2013), empleó por primera vez el término dataísmo. Desde entonces, otros pensadores se han apropiado de él, y lo han extendido hasta convertirlo en una ideología, una filosofía o, incluso, una nueva religión.
Lo más probable es que todo esto te parezca extremista, frío o, incluso estúpido, pero, ¿En quién confías? ¿En la palabra del acusado o en la prueba del polígrafo? ¿En la palabra del acusado o en la prueba de ADN? ¿En la palabra del acusado o en la identificación de huellas dactilares?… ¿En quién confías?
Datos significantes
Seguramente se pueda hacer alguna apreciación más, pero no está nada mal para tratarse de un vistazo rápido a una gráfica en la que se representan más de 5 millones de datos.
Es interesante comprobar la facilidad con la que entendemos y tratamos los datos visuales, sobre todo, en comparación con la poca capacidad para comprender los mismos datos cuando se presentan escritos. En ningún momento hubiera podido presentar los datos en toda su magnitud con un formato de texto. Una tabla con semejante cantidad de registros sería ilegible, además, ninguno de nosotros podría asimilar gran cosa leyéndola. Sin embargo, hemos podido presentar y empezar a entender visualmente ese mismo volumen de datos.
A los humanos (aunque no sólo a los humanos) se nos da muy bien encontrar patrones visuales, mientras que a un ordenador, a día de hoy, le resulta imposible dar una interpretación desarrollada de una gráfica un poco compleja usando técnicas de visión artificial. Quizá, fuera relativamente fácil conseguir que un ordenador aprendiera a detectar cambios en la pendiente de una línea o proporciones en una gráfica de tarta. Pero aunque pudiéramos, en mi opinión, sería una aproximación equivocada.
Creo que Turing tenía razón al plantear que lo importante es que una inteligencia artificial parezca una inteligencia humana, porque la forma en la se construyen esas inteligencias no tienen que ser, y de hecho no son, la misma.
A un ordenador, le viene mejor una tabla.
Pero lo que más me interesa de todo este asunto es el hecho de que seamos capaces de saber qué días se usa una oficina prestando sólo un poco de atención a una gráfica vergonzosa resultado de una gamberrada. No estamos ante la presencia de niños que escuchan las conversaciones de sus padres para informar a la policía política. Estamos ante un enchufe inteligente que registra consumo eléctrico. Lo interesante es que podamos extraer cierta semántica a partir de datos que carecen por completo de ella.
¿Qué otras cosas podemos saber sobre el consumo eléctrico registrado de la máquina de café?
Lo veremos en las siguientes entregas de Café con IOT