Inicio Noticias OpenAI lanza gpt-realtime y la Realtime API: nueva generación de agentes de...

Noticias

OpenAI lanza gpt-realtime y la Realtime API: nueva generación de agentes de voz con conversaciones naturales, soporte para SIP, MCP remoto y precios reducidos

Por

01/09/2025

OpenAI presentó oficialmente la Realtime API junto a su modelo más avanzado de voz a voz, gpt-realtime. Esta combinación está diseñada para que desarrolladores y empresas puedan crear agentes de voz listos para producción con mayor rapidez y confiabilidad.

Presentación del modelo gpt-realtime

El modelo gpt-realtime se distingue por su capacidad para comprender instrucciones complejas y generar conversaciones más expresivas y humanas.

gpt-realtime-api-openai-voz — Fuente: OpenAI

Puede alternar entre idiomas dentro de una misma frase, repetir secuencias alfanuméricas con precisión y adaptarse a diferentes estilos de comunicación. Además, OpenAI lanzó dos voces exclusivas para la API, llamadas Cedar y Marin, con mejoras notables en naturalidad.

Ventajas frente a sistemas tradicionales: Realtime API

La Realtime API rompe con los sistemas tradicionales que requerían varios modelos encadenados para convertir voz en texto y viceversa. Ahora todo el proceso ocurre en un único modelo, lo que reduce la latencia y conserva los matices del habla. Este cambio permite respuestas más rápidas y fluidas.

Mejoras en calidad de voz e inteligencia

El nuevo modelo no solo habla de forma más natural, sino que también interpreta mejor las emociones y señales no verbales, como pausas o risas. Puede ajustar su tono a distintos contextos, pasando de un estilo profesional a uno empático según la situación.

En pruebas internas, demostró mayor precisión en la detección de datos alfanuméricos y un rendimiento superior en razonamiento frente a modelos anteriores.

Avances en instrucciones y funciones

Uno de los mayores progresos de gpt-realtime está en su capacidad de seguir instrucciones detalladas y realizar llamadas a funciones de manera más precisa.

Incluso soporta llamadas asíncronas, lo que permite mantener una conversación fluida mientras se ejecutan procesos en segundo plano. Estas mejoras lo hacen especialmente útil en escenarios donde la exactitud y continuidad son críticas.

Integración, seguridad y precios

Con la integración de MCP remoto y soporte para SIP, la implementación de agentes de voz resulta más flexible y escalable. OpenAI también reforzó la seguridad de la API con filtros activos que bloquean usos indebidos y medidas de privacidad, incluyendo residencia de datos en la Unión Europea.

Finalmente, el modelo ya está disponible con una reducción del 20% en precios frente a versiones anteriores, lo que facilita su adopción en proyectos de distinta escala.

El lanzamiento de gpt-realtime y la Realtime API marca un nuevo estándar en el desarrollo de agentes de voz. La combinación de conversaciones más naturales, mejoras técnicas y costos más accesibles abre la puerta a aplicaciones más útiles y confiables tanto para empresas como para usuarios finales.

Vía OpenAI

Presentación del modelo gpt-realtime

Ventajas frente a sistemas tradicionales: Realtime API

Mejoras en calidad de voz e inteligencia

Avances en instrucciones y funciones

Integración, seguridad y precios

Artículos relacionadosMás del autor

Claude Sonnet 4.5 impulsa la programación y la IA: mejoras en codificación, seguridad avanzada, creación de agentes y nuevas herramientas para desarrolladores

ChatGPT lanza controles parentales y recursos para familias: protección de adolescentes, configuraciones personalizadas y herramientas de seguridad en IA

Samsung TRUEBench revoluciona la evaluación de la productividad con IA: métricas reales, escenarios multilingües y estándares abiertos en Hugging Face

Artículos relacionados Más del autor