En la actualidad, la inteligencia artificial avanza a pasos gigantes, abriéndose paso a nuevos sectores de aplicación a nivel internacional. Prueba de ello, es el reciente enfoque de NVIDIA para entrenar una IA con pocos datos. En esta ocasión, OpenAI ha lanzado su nueva aplicación DALL-E, diseñada para generar imágenes a partir de cualquier descripción.

DALL-E: la nueva aplicación de OpenAI que genera imágenes con solo una descripción

Esta semana la popular empresa de inteligencia artificial (IA) cofundada en 2015 por Elon Musk dio a conocer un nuevo logro dentro de su investigación. OpenAI anunció la operatividad de su nueva aplicación DALL-E capaz de crear asociaciones conceptuales entre elementos gráficos y textuales dados por un usuario.

DALL-E de OpenAI. Ejemplo de búsqueda de gatos hechos se sushi.
Generación de gatos hechos de sushi en DALL-E

La nueva aplicación emplea 12.000 millones de parámetros del lenguaje GTP-3 para generar una imagen basada en la descripción de sus características. En este sentido, podemos solicitarle que nos entregue elementos al azar como un gato hecho de sushi o una casa de madera en el bosque, y luego de algunos segundos el servicio nos ofrecerá los resultados, a menudo con una calidad sorprendente.

Por si fuera poco, DALL-E es capaz de inferir atributos que no se detallan en la descripción, pero que de acuerdo con el algoritmo serían necesarios para obtener un mejor resultado. Además, el servicio puede combinar elementos y objetos para brindarnos diversos puntos de vista y perspectivas de una misma imagen.

“A diferencia de un motor de renderizado 3D, cuyas entradas deben especificarse de manera inequívoca y con todo detalle, DALL-E a menudo puede completar los espacios en blanco cuando el título implica que la imagen debe contener un cierto detalle que no se indica explícitamente”.

OpenAI

IA desarrolla por sí sola razonamiento visual de disparo cero

Los desarrolladores de OpenAI han destacado que DALL-E ha explotado al máximo sus capacidades de reconocimiento, desarrollando un razonamiento visual de disparo a cero. Esto le permite generar una respuesta ante una descripción poco explícita y alguna pista, sin ningún tipo de entrenamiento adicional. Por ejemplo, generar las misma tetera de la imagen superior con “gpt” escrito en la parte inferior.

“Descubrimos que DALL-E extiende esta capacidad al dominio visual y es capaz de realizar varios tipos de tareas de traducción de imagen a imagen cuando se le solicita de la manera correcta. No anticipamos que esta capacidad surgiría y no hicimos modificaciones a la red neuronal o al procedimiento de entrenamiento para fomentarla”.

OpenAI

La nueva aplicación DALL-E de OpenAI cuenta con varias capacidades adicionales, como el reconocimiento geográfico y de las variaciones temporales. Sin embargo, este algoritmo sigue estando bastante limitado, por lo que a veces ofrece lo que buscas y otras veces no da los resultados esperados.

Vía OpenAI

Show Full Content

Sobre el autor Ver Posts

Johnny Marin

Johnny es estudiante de quito año de Medicina de la Universidad de Oriente. Apasionado por la tecnología, ciencia y astronomía. Él cree que su estudio y expansión son la clave de un mejor futuro para la humanidad.

Anterior Así es el prototipo de “Jetpack” de patinaje sobre hielo que permite desplazarse a 40 Km/h
Siguiente Netflix decide probar un botón de ‘reproducción aleatoria’ en la pantalla de inicio de la aplicación
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments

imagen social instagram @viatea

imagen social facebook @viatea

imagen social twitter @viatea

imagen social telegram @viatea

imagen social instagram @viatea

Atrás
Cerrar
Cerrar