¡Arte con Machine Learning!

Con pasos agigantados, el machine learning ha permeado más áreas de las pensadas y resulta interesante ver cómo se está trabajando con este tipo de tecnologías en el ámbito de la creatividad. En qué punto, este gran diferenciador de creación de los humanos será sobrepasado por una inteligencia artificial, si ya generan obras de arte en segundos.

Y pasemos por alto esta gran prerrogativa humana, pensemos en el trasfondo de cómo el machine learning nos puede dar obras casi dignas de Bob Ross. Hoy, hablaremos de una combinación en tendencia dentro de proyectos open source para la generación de imágenes a partir de texto: CLIP+VQGAN.

CLIP: Contrastive Language Image Pre-Training

Se basa en una gran cantidad de trabajo sobre la transferencia cero, la supervisión del lenguaje natural y el aprendizaje multimodal. En ese sentido, hablamos de inteligencia artificial que permite transformar textos en imágenes.

CLIP busca alejarse de los métodos convencionales de aprendizaje supervisado. Por ejemplo, ImageNet, el conjunto de datos de imágenes más grande, solo puede clasificar imágenes que pertenecen a las clases en las que fue entrenado por lo que añadir una clase para re-entrenar el modelo no hace sentido en el largo plazo.

El conjunto de datos de ImageNet requirió más de 25,000 trabajadores para anotar 14 millones de imágenes para 22,000 categorías de objetos. Por el contrario, CLIP aprende de pares de texto-imagen que ya están disponibles públicamente en Internet. El principal punto de CLIP es la clasificación de imágenes de toma cero, esto significa que puede tomar un fragmento de texto y una imagen y enviarlos a través de la red y obtener una predicción de la probabilidad de que sean similares.

VQGAN: Vector Quantized Generative Adversarial Networks

Una red generativa antagónica, algoritmos de inteligencia artificial que se utilizan en el aprendizaje no supervisado, implementadas por un sistema de dos redes neuronales. Esta técnica puede generar imágenes que parecen auténticas a observadores humanos.

De primera mano VQ-GAN es una variante de VQ-VAE, esto consiste en un codificador que mapea imágenes en una secuencia de variables latentes discretas y un decodificador que reconstruye las observaciones a partir de estas variables discretas, pero eso suena complejo.

VQ-GAN utiliza un discriminador y una pérdida perpetua para mantener una buena calidad de percepción a una mayor tasa de compresión. Por ejemplo, una imagen sintética de un gato que consiga engañar al discriminador que es parte funcional del algoritmo, es probable que lleve a una persona cualquiera a aceptarlo como una fotografía real.

Es decir, en VQGAN+CLIP, CLIP introduce entradas de texto a VQGAN. Dicha combinación, tiene un catálogo de aplicativos para probarse comúnmente dentro de Google Colab donde mediante ciertos parámetros base como dimensiones, así como la misma entrada de texto del título (literal) de nuestra obra podremos tener en un número n de iteraciones un gran resultado sin conocimientos artísticos. Y detrás de esto, ¿qué piensas de la incursión de la inteligencia artificial en la industria creativa? :exploding_head: :robot: