En los últimos artículos hemos hablado sobre analizar documentos sin leerlos, así como de los diferentes casos de uso de este tipo de herramienta. Una de las aplicaciones que se trató en aquel primer artículo fue la de evaluador de innovación de propuestas pero ¿Qué significa exactamente? Esta es la pregunta clave a la que trataremos de dar respuesta a lo largo de este artículo. En él, realizaremos un recorrido por las nuevas tecnologías que se están desarrollando y cómo aplicarlas para optimizar tiempo y recursos en nuestro día a día.
Los documentos como protagonistas
Documentarse acerca de una temática, identificar documentos innovadores en una materia o establecer su estado del arte suponen un gran reto cuando consideramos los grandes volúmenes de datos disponibles.
Entonces, ¿Cómo podemos hacer frente ante esta problemática?. Uno de los pasos que se están dando en este sentido es el desarrollo de evaluadores de innovación. Apoyadas en el mundo del Machine Learning, estas herramientas permiten comparar el contenido de distintos documentos e identificar si versan o no sobre el mismo tema sin la necesidad de leerlos. Con ello se consigue automatizar y optimizar el tiempo dedicado en este tipo de trabajos.
Determinados procesos de selección, certámenes de proyectos de investigación, ejecuciones de obras en ayuntamientos, son solo algunos ejemplos de estas situaciones; la documentación a revisar, clasificar y evaluar puede conllevar un trabajo y un tiempo que los convierte en procesos muy costosos, en los que además se corre el riesgo de “pasar por alto” propuestas relevantes y de valor. Los evaluadores de innovación nacen para dar respuesta a estas necesidades. A continuación vamos a explicar las distintas fases que componen estas prácticas: creación de un corpus, estado del arte y evaluador de innovación.
Creación de un corpus
A la hora de desarrollar una herramienta que mida el grado de innovación de un documento dentro de un campo, es imprescindible contar con una muestra de datos reales y representativos del dominio en concreto. Este conjunto de información es lo que se conoce comúnmente como corpus.
Así, por ejemplo un corpus puede estar compuesto por textos de diferente naturaleza en función si se trata de textos escritos (investigaciones científicas, informes médicos, …), de si pertenecen a una temática en concreto (financieros, publicitarios, literarios) o de si contienen varias lenguas (monolingüe o multilingüe). ¿Y cómo podemos conseguir un corpus representativo? Existen diferente vías disponibles que se podemos generalizar en:
- Documentos propios: el corpus es creado a partir de documentos recogidos previamente por la organización; por ejemplo a partir de archivos institucionales, textos digitalizados, estudios, investigaciones científicas propias, etc.
- Metodologías OSINT y Crawler: en caso de no disponer de un conjunto de texto propios, podemos conseguir el corpus a partir de fuentes abiertas. Como ya explicamos en artículos anteriores «OSINT, El poder de la información en Fuentes Abiertas», existen herramientas que permiten recopilar información en fuentes externas en torno a una temática y generar un corpus de manera automatizada.
Estado del arte
Una vez establecidas las bases de datos del corpus, el siguiente paso es lo que denominamos la clasificación del estado del arte; estudios de los documentos del corpus que permita adquirir un conocimiento general sobre los temas que tratan sin la necesidad de leerlos. Es decir, sin saber nada de las diferentes temáticas presentes en los documentos que tenemos entre manos, ser capaces de realizar una clasificación de los mismos. Dicha clasificación se realiza en base a la similitud de los textos.
Tal y como explicamos en nuestro artículo «Clasificación del estado del arte» ya expusimos algunos de los métodos que se están utilizando. A continuación vamos a dejar algunas de esas ideas pero recomendamos encarecidamente su lectura para obtener una información más detallada :
- Identificación mediante Machine Learning de agrupaciones de documentos (clases) que comparten cierta semejanza de contenido.
- Detección de temáticas contenidas en nuestro corpus mediante conceptos clave, términos más característicos de cada grupo, frecuencia de aparición de palabras, …
- Identificación del texto más representativo de cada clase con el objetivo de proporcionar una idea global sobre los temas que tratan. Permite así adquirir un conocimiento general de una clase de textos con la lectura de tan solo uno de ellos.
- Métricas en relación al grado de pertenencia de un documento a una temática.
- Análisis temporales de publicaciones de textos. Estudios de la evolución temporal de publicaciones que posibilita de la detección de patrones o tendencias de publicación
Evaluador de innovación
Una vez realizados los pasos anteriores, podemos empezar a medir el nivel de innovación de un texto en relación al estado del arte que usamos como marco de referencia. Este nivel de innovación se mide a través de ciertos parámetros que nos indican cómo de semejante o diferente es cada documento: cuántos temas trata que ya sean conocidos, qué porcentaje de su contenido habla de sobre nuevas temáticas, etc.
Las características comparadas pueden ser formales (longitud del texto, autor, fecha de publicación …), o en base a su contenido (estilo de escritura, vocabulario, idioma…). De todas ellas, una de las más relevantes es la comparación a nivel de temáticas, que permite conocer si un texto trata sobre un asunto ya conocido o si bien aún no ha sido contemplado en nuestro corpus de referencia.
Estos evaluadores también nos permiten establecer métricas de semejanza o diferencia absolutas, detección de anomalías locales dentro de una temática (documentos que aún perteneciendo a una temática presentan aspectos diferenciales respecto al resto) , textos multi-clase (los temas no son nuevos, pero la combinación sí lo es), etc.
Medir el grado de semejanza tiene otras aplicaciones, y nos puede ayudar por ejemplo a ahorrar tiempo de lectura; detección de copias o plagios, el nivel de interés o la cantidad de nueva información que aporta un texto (¿Es relevante su lectura?) e identificar qué partes de un artículo tratan sobre temas no conocidos son algunos ejemplos de situaciones que podríamos tratar en las que resulta de interés este tipo de herramientas.
Todo lo anterior unido a otros aspectos del análisis de textos como los resúmenes automáticos, detección de palabras clave y frecuentes, etc nos permite la evaluación de un documento sin necesidad de tan siquiera leerlo.