Este artículo surgió con la idea de filosofar acerca de las IAs de generación de imágenes como DALL-e, Stable diffusion o Midjourney, y sobre si son capaces crear o no arte. De intentar comprender si el modelo detrás puede llegar a aprender, o si únicamente copia y pega patrones en base a las direcciones que se le marcan. Y aunque ese artículo pudiera ser tremendamente interesante, voy a dejar que expertos en historia del arte, filosofía y artes plásticas exploren esa vía más peliaguda, y tratar de centrar éste en otra cosa. Para lo cual, primero necesito que el lector comprenda varios aspectos clave de estos modelos de generación de imágenes:
- Estas IAs son capaces de «dibujar» prácticamente cualquier cosa a partir de un texto
- Es posible escoger tamaño, grado de fidelidad al texto, y otros parámetros
- Si un diseño nos gusta podemos reutilizar el «estilo»
Orígenes de las IAs de generación de imágenes
Lo realmente interesante de estos modelos, es que han llegado a revolucionar un sector en el que no estaban ni se las esperaba. Cuando uno piensa en IAs, piensa en automatizar trabajos repetitivos, predicciones, cálculos, etc. No en arte. Llevaban unos años ahí, hemos visto el auge de los deep fakes, transferencia de estilos, filtros mágicos en nuestras apps favoritas, etc. Sin embargo, el punto revolucionario ha sido el hecho de que son capaces de crear algo nuevo aplicando estilos aprendidos en base a una descripción en texto, ¿pero cómo se ha llegado hasta aquí?
La revolución llegó de manos de OpenAI y CLIP (Contrastive Language-Image Pre-training), una red neuronal capaz de aprender de manera eficiente conceptos visuales mediante lenguaje natural. Esto implica que los modelos no aprenden de una única etiqueta, si no que usan un gran conjunto de conceptos reconocibles en la imagen. Lo cual ayuda enormemente a generar imágenes a partir de una descripción.
Ok, ¿y DALL-e, Stable Diffusion y Midjourney de dónde salen?
OpenAI es la empresa detrás de DALL-e, una de las las Inteligencias Artificiales más populares en generación de imágenes a día de hoy. Y, aunque el uso de DALL-e sea privado, la arquitectura que sustenta el modelo (CLIP) es Open Source. ¿Cuáles son las implicaciones de esto? Gracias a su apertura, ha favorecido que otras empresas y usuarios utilicen su metodología y estructura para generar sus propios modelos. Este es el caso de Midjourney, y de stability.ai con Stable Diffusion, que combinan esta y otras redes para generar sus imágenes.
Todo ello ha generado un ecosistema en el que cada compañía entrena sus modelos con imágenes, parámetros y acercamientos diferentes al problema. Esto es muy visible si comparamos imágenes de varios de ellos. Midjourney tiene un toque más artístico, mientras que DALL-e 2 permite generar imágenes muy realistas, y Stable Diffusion ofrece ilustraciones muy detalladas.
Vale, pero, ¿Cuál es mejor?
Esta es la pregunta del millón, y depende de lo que estés buscando, cada una aporta detalles que pueden ser diferenciales a la hora de elegir. Como hemos comentado, Midjourney destaca por sus generaciones artísticas (Obra de Inteligencia Artificial Midjourney gana concurso de arte), DALL-e 2 por sus imágenes realistas, y Stable Diffusion por sus detalles. Sin embargo hay un detalle más del que no hemos hablado que puede inclinar la balanza.
Stable Diffusion es un modelo que tiene tanto código como dataset abierto. Cualquier persona puede descargarlo de forma gratuita y utilizarlo. Ha mejorado notablemente en muy poco tiempo, y tiene una comunidad muy activa creando soluciones sobre ella.
Desde Future Space, hemos recogido el testigo, y haremos una serie de posts en esta serie actualizando el estado de estos modelos, y generando contenido que pueda ayudar a difundir el uso de estas IAs. Comenzando con este artículo, y con su continuación la próxima semana, donde guiaremos paso a paso a un usuario para que pueda utilizar Stable Diffusion desde cualquier ordenador únicamente con una cuenta de google.
Te esperamos!