OpenAI, en su evento de ‘actualización de primavera’, anunció a GPT-4o su modelo más reciente. Este se ha presentado con la capacidad de procesar y responder a combinaciones de texto, audio e imagen. Logrando responder a estímulos auditivos en un tiempo promedio de 232 a 320 milisegundos, comparable al tiempo de reacción humana. Su rendimiento iguala al de GPT-4 Turbo en textos en inglés y programación, y ofrece mejoras en textos en otros idiomas. Además, es un 50% más económico y más rápido en la API.
GPT-4o se destaca por su habilidad para comprender y discutir imágenes de manera avanzada. Puede realizar tareas como traducir menús en otros idiomas, explicar la historia detrás de los alimentos y sugerir recomendaciones. OpenAI también tiene previsto lanzar un modo de voz mejorado que facilitará conversaciones más naturales y en tiempo real, incluyendo la capacidad de interactuar mediante video en vivo.
Disponibilidad de GPT-4o
La compañía ha comenzado la implementación de GPT-4o a diferentes segmentos de usuarios. Quienes paguen por ChatGPT Plus y de equipo ya tienen acceso al modelo en entradas de texto e imagen. La interacción demostrada en voz y video se habilitará durante las próximas semanas, según informó OpenAI.
La disponibilidad para usuarios empresariales se especificará próximamente. Adicionalmente, GPT-4o se está introduciendo gradualmente para los usuarios gratuitos de ChatGPT, aunque con límites de uso. Eso, sumado a una nueva App para escritorio (primero para macOS y después para Windows) de ChatGPT que integrará este tipo de interacciones en tu computador.