La inteligencia artificial ha avanzado significativamente en los últimos años, y OpenAI sigue a la vanguardia de esta evolución. Con la introducción de la capacidad de visión en la API de ajuste fino para el modelo GPT-4o de OpenAI, ahora es posible entrenar modelos con imágenes.
Introducción a la personalización con imágenes para tareas de visión
La nueva funcionalidad de ajuste fino con imágenes permite a los desarrolladores personalizar los modelos para tareas visuales específicas. Esto representa un paso adelante en el campo de la inteligencia artificial.
Anteriormente, el ajuste fino se limitaba a datos de texto, lo que restringía su aplicabilidad en situaciones donde la comprensión visual era crucial. Con esta actualización, OpenAI ha logrado integrar de manera eficiente la visión dentro de su modelo GPT-4o. Así, hace posible que el entrenamiento de IA abarque tanto texto como imágenes.
Esto abre la puerta a nuevas aplicaciones en áreas como la detección de objetos para vehículos autónomos, la automatización en ciudades inteligentes y el análisis detallado de imágenes médicas.
Proceso de ajuste fino con imágenes
El proceso de ajuste fino con imágenes sigue un camino similar al del texto. Los desarrolladores ahora pueden preparar sus conjuntos de imágenes y cargarlos en la plataforma de OpenAI para mejorar el rendimiento del modelo en tareas visuales.
Lo interesante es que, con tan solo 100 imágenes, ya es posible obtener mejoras significativas en la precisión del modelo. Además, al combinar estos datos de imagen con grandes volúmenes de texto, el rendimiento general del modelo se eleva aún más. De este modo, permite una personalización mucho más profunda y eficiente.
Ejemplos de aplicaciones del ajuste fino con imágenes: La integración de visión
OpenAI ha trabajado con varias empresas para explorar cómo la integración de la visión en el ajuste fino puede beneficiar a diferentes industrias. Por ejemplo, con Grab, una compañía de transporte y entrega que utiliza imágenes de sus conductores para mejorar su sistema de mapas.
Con la incorporación de imágenes en el ajuste fino, lograron incrementar la precisión en la localización de señales de tráfico y la cuenta de carriles. De este modo, permitió optimizar su servicio de mapas automatizando procesos que anteriormente se realizaban de forma manual.
Mejoras en la automatización empresarial
Otro caso relevante es Automat, una empresa especializada en automatización, que ha utilizado esta nueva funcionalidad para entrenar modelos que puedan identificar elementos de la interfaz de usuario (UI) en una pantalla.
Al entrenar a GPT-4o con capturas de pantalla, Automat mejoró drásticamente la precisión de sus agentes de automatización, alcanzando un aumento del 272% en comparación con la versión base del modelo.
OpenAI y su compromiso con la seguridad y privacidad en el uso de visión en la API de ajuste fino
OpenAI ha implementado rigurosas medidas de seguridad para garantizar que los modelos ajustados con imágenes cumplan con sus políticas de uso. Los desarrolladores tienen el control total sobre sus datos y pueden estar seguros de que la información que utilizan para entrenar sus modelos no será reutilizada sin su consentimiento explícito.
Disponibilidad y costos del ajuste fino con imágenes
La capacidad de ajuste fino con imágenes ya está disponible para los desarrolladores que utilizan los niveles de pago de OpenAI. Para facilitar la adopción de esta nueva herramienta, OpenAI ofrece hasta el 31 de octubre de 2024 un millón de tokens de entrenamiento gratuitos por día.
Después de esta fecha, los costos asociados al ajuste fino y la inferencia se detallan claramente en su página de precios, permitiendo a los desarrolladores planificar el uso de estos recursos con antelación.
La introducción de la visión en la API de ajuste fino para GPT-4o de OpenAI representa un avance significativo en el campo de la IA, ya que al permitir que los modelos se ajusten con imágenes, OpenAI ha llevado la personalización y precisión del entrenamiento de IA a otro nivel.
Vía OpenAI