La evolución en el desarrollo de aplicaciones de IA ha llevado a OpenAI a implementar una función clave en su API: Prompt Caching. Esta nueva característica no solo reduce los costos operativos, sino que también optimiza el tiempo de respuesta al reutilizar prompts ya procesados.
OpenAI introduce Prompt Caching
Prompt Caching permite a los desarrolladores ahorrar tanto en costos como en tiempo de procesamiento, algo esencial para mejorar el rendimiento de aplicaciones en producción. Funciona reutilizando los tokens de entrada ya utilizados en solicitudes anteriores, lo que evita procesar la misma información repetidamente.
Esto se traduce en un descuento del 50% en el uso de los tokens y una aceleración en la velocidad de procesamiento de los prompts, beneficiando a aquellos que utilizan los mismos contextos en varias solicitudes.
Disponibilidad de Prompt Caching en modelos reciente de OpenAI
Desde su implementación, Prompt Caching está disponible en los modelos más recientes de OpenAI, como GPT-4o, GPT-4o mini, o1-preview y o1-mini, incluidos sus modelos afinados.
Lo interesante de esta característica es que se aplica automáticamente, sin que el desarrollador deba realizar configuraciones adicionales. Los prompts que ya han sido almacenados en caché son ofrecidos a un precio reducido. Esto proporciona una ventaja financiera para los usuarios que hacen un uso intensivo de la API.
Funcionamiento del Prompt Caching
El funcionamiento de Prompt Caching es sencillo y eficiente. Se activa automáticamente en consultas que superan los 1,024 tokens, donde la API almacena en caché el prefijo más largo del prompt ya procesado previamente.
Cada vez que un desarrollador reutiliza un prompt con un prefijo común, la API aplica automáticamente el descuento y acelera el procesamiento. Esto permite un uso más óptimo de los recursos de la API, haciendo que las interacciones sean más ágiles y rentables.
Duración de los caches y privacidad: OpenAI se preocupa por la seguridad
Es importante destacar que los caches tienen una vida útil limitada. Generalmente, se eliminan después de 5 a 10 minutos de inactividad, aunque el tiempo máximo de almacenamiento es de una hora después del último uso.
Además, OpenAI garantiza que los caches son específicos de cada organización, lo que asegura la privacidad y protección de datos. Esto refuerza el compromiso de la empresa con la confidencialidad de la información, asegurando que los datos almacenados no se compartan entre diferentes usuarios o entidades.
La incorporación de Prompt Caching en la API de OpenAI marca un paso importante en la optimización del uso de la inteligencia artificial. Al reutilizar prompts previamente procesados, esta función no solo reduce costos y latencias, sino que también permite que las aplicaciones escalen con mayor eficiencia.
Vía OpenAI