Esta nueva inteligencia artificial de OpenAI crea imágenes personalizadas a partir de cualquier texto

En la actualidad, la inteligencia artificial avanza a pasos gigantes, abriéndose paso a nuevos sectores de aplicación a nivel internacional. Prueba de ello, es el reciente enfoque de NVIDIA para entrenar una IA con pocos datos. En esta ocasión, OpenAI ha lanzado su nueva aplicación DALL-E, diseñada para generar imágenes a partir de cualquier descripción.

DALL-E: la nueva aplicación de OpenAI que genera imágenes con solo una descripción

Esta semana la popular empresa de inteligencia artificial (IA) cofundada en 2015 por Elon Musk dio a conocer un nuevo logro dentro de su investigación. OpenAI anunció la operatividad de su nueva aplicación DALL-E capaz de crear asociaciones conceptuales entre elementos gráficos y textuales dados por un usuario.

DALL-E de OpenAI. Ejemplo de búsqueda de gatos hechos se sushi.
Generación de gatos hechos de sushi en DALL-E

La nueva aplicación emplea 12.000 millones de parámetros del lenguaje GTP-3 para generar una imagen basada en la descripción de sus características. En este sentido, podemos solicitarle que nos entregue elementos al azar como un gato hecho de sushi o una casa de madera en el bosque, y luego de algunos segundos el servicio nos ofrecerá los resultados, a menudo con una calidad sorprendente.

Por si fuera poco, DALL-E es capaz de inferir atributos que no se detallan en la descripción, pero que de acuerdo con el algoritmo serían necesarios para obtener un mejor resultado. Además, el servicio puede combinar elementos y objetos para brindarnos diversos puntos de vista y perspectivas de una misma imagen.

“A diferencia de un motor de renderizado 3D, cuyas entradas deben especificarse de manera inequívoca y con todo detalle, DALL-E a menudo puede completar los espacios en blanco cuando el título implica que la imagen debe contener un cierto detalle que no se indica explícitamente”.

OpenAI

IA desarrolla por sí sola razonamiento visual de disparo cero

Los desarrolladores de OpenAI han destacado que DALL-E ha explotado al máximo sus capacidades de reconocimiento, desarrollando un razonamiento visual de disparo a cero. Esto le permite generar una respuesta ante una descripción poco explícita y alguna pista, sin ningún tipo de entrenamiento adicional. Por ejemplo, generar las misma tetera de la imagen superior con “gpt” escrito en la parte inferior.

“Descubrimos que DALL-E extiende esta capacidad al dominio visual y es capaz de realizar varios tipos de tareas de traducción de imagen a imagen cuando se le solicita de la manera correcta. No anticipamos que esta capacidad surgiría y no hicimos modificaciones a la red neuronal o al procedimiento de entrenamiento para fomentarla”.

OpenAI

La nueva aplicación DALL-E de OpenAI cuenta con varias capacidades adicionales, como el reconocimiento geográfico y de las variaciones temporales. Sin embargo, este algoritmo sigue estando bastante limitado, por lo que a veces ofrece lo que buscas y otras veces no da los resultados esperados.

Vía OpenAI

Johnny Marin
Johnny Marin
Johnny es estudiante de quito año de Medicina de la Universidad de Oriente. Apasionado por la tecnología, ciencia y astronomía. Él cree que su estudio y expansión son la clave de un mejor futuro para la humanidad.

Artículos relacionados

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí