«o3» y «o3-mini» serán los sucesores de los modelos «o1» y «o1-mini». Ambos, según el anuncio de OpenAI, estarán disponibles inicialmente para investigadores seleccionados, con el objetivo de llevar a cabo pruebas de seguridad antes de su lanzamiento general. Según la compañía, o3-mini estará listo hacia finales de enero de 2025, mientras que o3 llegará poco después.
Durante la presentación, Sam Altman, CEO de OpenAI, explicó que el nombre o3 se eligió para evitar problemas de derechos con la red telefónica O2 y en línea con la tradición de la empresa de utilizar nombres poco convencionales. La introducción de estos sistemas marca una nueva fase en la evolución de la inteligencia artificial, enfocándose en tareas de razonamiento más complejas que requieren altos niveles de procesamiento cognitivo.
Avances técnicos y desempeño en benchmarks
El modelo o3 ha mostrado grandes mejoras frente a su predecesor en una amplia gama de pruebas. En el American Invitational Mathematics Examination 2024, obtuvo una precisión del 96,7 %, superando el 83,3 % alcanzado por o1. Además, logró una puntuación de 87,5 % en la evaluación ARC-AGI, diseñada para medir habilidades de razonamiento conceptual, superando el rendimiento humano promedio en este test.
Otro aspecto destacado fue su capacidad para resolver problemas complejos en áreas como programación y matemáticas avanzadas. Según OpenAI, o3 superó en un 22,8 % el desempeño del modelo o1 en pruebas de codificación como SWE-Bench Verified y obtuvo una calificación de 2727 en la plataforma Codeforces, un resultado superior incluso al del principal científico de la compañía.
Por su parte, la versión ‘mini’ incorpora una API de Tiempo de Pensamiento Adaptativo, que permite a los usuarios ajustar el nivel de razonamiento del modelo en modos de baja, media o alta complejidad. Esto posibilita resultados comparables al modelo o1, pero con un costo computacional menor.
Acceso anticipado a o3
OpenAI ha insistido en su compromiso con la seguridad mediante la implementación de alineación deliberativa, un enfoque que integra especificaciones de seguridad humanas directamente en los modelos. Esta técnica reduce la vulnerabilidad a ataques de jailbreak y mejora la adherencia a directrices de contenido.
Los investigadores interesados en probar ambos modelos pueden postularse hasta el 10 de enero de 2025 a través de un formulario en la Web de OpenAI. Los seleccionados participarán en pruebas controladas de capacidades de alto riesgo y desarrollarán evaluaciones avanzadas que contribuyan a garantizar un despliegue responsable de estos modelos.