Existen múltiples escenarios en los que necesitamos conocer un documento, pero no podemos o no queremos leerlo. Posiblemente el más evidente sea librarnos de hacer un comentario de texto sobre el libro que nos han mandado en el colegio. Pero seguro que, sin mucha dificultad, nos vendrán a la mente casos de uso más provechosos para nuestra vida profesional. Así pues, con estas líneas iniciamos una serie de artículos que nos permitirán conocer cómo se puede extraer valor para nuestros negocios gracias a las soluciones que nos ofrece la tecnología en materia de análisis de documentos.
En la actualidad los ordenadores se ven superados por el volumen de información que producimos. Por el momento, son incapaces de procesar, para obtener el valor deseado, todos los datos disponibles. Sin embargo, nosotros, los humanos, estamos realmente más sobrecargados de información que nuestros equipos informáticos.
No profundizaremos en cifras que se vuelven obsoletas aún antes de escribirlas. Pero, para hacernos una idea, se estima que en el 2020 al menos el 80% de los datos producidos son datos no estructurados. O lo que es lo mismo, datos que no están organizados conforme a un modelo predefinido, como las fotografías, el vídeo o el texto. Y si bien es cierto que los datos en formato texto son muchos menos que los de los otros formatos, en nuestra vida profesional, la mayoría de la información relevante se encuentra en forma escrita (correos, informes, memorias, ofertas, facturas…).
Por lo tanto, la posibilidad de ahorrar tiempo y esfuerzo humano en la lectura de textos es clave para obtener el máximo provecho de nuestro trabajo. Así pues, veamos algunos ejemplos en los que sería de interés que fuera un ordenador el que consumiera tiempo y esfuerzo para ayudarnos a conocer documentos sin necesidad de leerlos.
1. Priorizar lecturas
Supongamos que tienes todo el tiempo que necesitas para leer los documentos que tienes pendientes. ¿No querrías saber, al menos, por dónde empezar?
Establecer un orden de prioridad en la lectura nos permite leer en orden de interés, urgencia, importancia, relevancia o simplemente apetencia. De esta forma trataremos primero los asuntos que más requieren nuestra atención. Con ello, si algún motivo nos impele a dejar la lectura, habremos reducido el potencial perjuicio que conlleva dejar en el tintero un documento importante.
2. Clasificar comentarios
Recuerdo una época de mi infancia en la que los buzones de sugerencias de las cadenas de comida rápida eran algo llamativo. Ahora las redes sociales hacen prácticamente innecesario tener estas cajas ocupando espacio (aunque aún están ahí). ¿Pero, qué dicen sobre mí, sobre mi marca o mis productos en los comentarios de las redes sociales?
Los clasificadores de textos nos permiten agrupar comentarios semejantes, de tal forma que pueda detectar qué es una reclamación, un elogio, un comentario irrelevante o un intento de desprestigio. Para ello, cada texto es analizado con objeto de extraer características descriptivas tanto del autor como del propio texto. Podemos saber así sentimientos, grado de subjetividad, temas tratados, palabras clave, etc. Y con todo ello, es posible agrupar aquellos comentarios que más se parezcan entre sí, para que los tengamos clasificados antes de haberlos leído.
3. Obtener las noticias tipo
Ahora supongamos que sólo tienes algo de tiempo para leer los documentos que tienes pendientes. ¿No querrías saber, al menos, qué selección de documentos tendrías que leerte para no hacerte una idea de lo que tratan todos ellos?
Este es el caso de las noticias diarias. Lo más normal es que una misma noticia sea tratada en distintos textos, posiblemente procedentes de fuentes distintas. Y sería interesante disponer de un sistema capaz de obtener el documento más representativo de todo el conjunto de textos que cubren la misma noticia. Así sólo sería necesario leer una noticia de cada tipo para hacernos una idea de todos los temas tratados ese día.
4. Resumir libros
¿Y si el motivo que nos lleva a necesitar invertir mucho tiempo de lectura no fuera la cantidad de textos a leer, si no su extensión? Entonces, disponer de un sistema que nos resuma el contenido de un documento sería de gran utilidad.
Los resúmenes automáticos de libros nos permiten obtener datos indicativos sobre el texto, como su extensión, sus palabras clave o su estilo narrativo. Fundamentalmente nos ofrecen textos alternativos más cortos cuya lectura reemplaza a la lectura del libro original. Se Obtiene así la mayor información posible sobre el contenido del libro sin necesidad de leerlo entero.
5. Analizar curriculums
Las aplicaciones de este tipo de tecnologías en el mundo de los recursos humanos son muy extensas. Una de las más típicas son los analizadores automáticos de currículums que permiten al reclutador tener un análisis previo de los candidatos presentados a una oferta.
Estos sistemas permiten aplicaciones como las mencionadas en los casos anteriores. Podemos priorizar los curriculums, agrupar candidatos similares, obtener un ejemplo tipo de cada grupo o resumir los perfiles profesionales. Podemos ir más allá del análisis puro de textos, y, por ejemplo, implicar al área de OSINT (inteligencia en fuentes abiertas). Con ello es posible cruzar y enriquecer la información del currículum con la huella digital que deja el candidato en las redes sociales. Incluso, podemos llegar a tener un pre-evaluador automático de currículums, el cuál directamente podría seleccionar aquellos candidatos que realmente se ajustan al perfil buscado.
6. Detectar copias
Una vez más, el caso académico es el primero que nos viene a la cabeza. De vez en cuando vuelve a saltar la noticia sobre un sistema informático a disposición del profesorado que sirve para ayudarles en la detección de copias en trabajos escolares o tesis doctorales.
Pero establecer el grado de semejanza entre dos documentos tiene muchas otras aplicaciones, y nos puede ayudar a ahorrar mucho tiempo de lectura. Por ejemplo, mi biblioteca electrónica alberga algunos cientos de archivos, de los cuales, una buena parte son folletos informativos que me hacen llegar distintas empresas a través de su newsletter. El problema es que archivos con distintos nombres pueden albergar el mismo contenido (o uno muy semejante). Así que me viene muy bien disponer de una herramienta para determinar si un folleto nuevo ya forma parte de mi colección.
¿El informe “SmartGraph, tu herramienta para la detección de fraude” no me llegó ya hace unos meses?
+4 casos de uso de análisis de documentos
Existen muchas otras situaciones que podríamos tratar en las que resulta de interés el análisis automático de documentos. Pero de todas ellas hay 4 a las que nos gustaría dedicar sus propios artículos, por lo que aquí simplemente las vamos a nombrar aquí:
- Clasificador del estado del arte
- Evaluador automático de facturas
- Observatorio de publicaciones tecnológicas
- Evaluador de innovación en propuestas
Aunque seguramente, el caso de análisis automático de documentos más interesante sea el que tengas que resolver tú. ¿Te animas a contárnoslo?