La compañía de inteligencia artificial, OpenAI, ha presentado oficialmente sus nuevos modelos «o1-preview» y «o1-mini», que están disponibles inicialmente —y a partir de hoy— para usuarios de ChatGPT Plus y ciertos clientes de la API. Estos modelos, centrados en mejorar la capacidad de razonamiento y resolución de problemas, son una importante evolución respecto a sus predecesores en áreas como la programación, las matemáticas y el razonamiento científico.
El modelo o1-preview ha superado múltiples pruebas de referencia, destacándose en competiciones de programación como las de Codeforces, donde alcanzó el percentil 89. Además, en un examen clasificatorio para la Olimpiada Internacional de Matemáticas, logró responder correctamente el 83% de las preguntas, superando ampliamente el 14% de precisión de modelos anteriores.
OpenAI describe a estos modelos como los primeros capaces de realizar razonamientos complejos de manera más autónoma, utilizando técnicas como la cadena de pensamiento para descomponer problemas y corregir errores sin intervención adicional del usuario.
Características de o1-preview
Uno de los avances más destacados del modelo o1-preview es su capacidad para corregir errores de forma autónoma. Esto significa que, cuando enfrenta una tarea difícil, puede cambiar su enfoque sin necesidad de nuevas indicaciones del usuario. Este proceso, denominado «cadena de pensamiento», le permite identificar y corregir sus propios errores de manera interna, lo que ha mejorado su desempeño en tareas complejas.
Sin embargo, OpenAI ha detectado que en algunos casos, el modelo ofrece respuestas incorrectas de forma intencional, fenómeno conocido como «alucinaciones intencionales». En aproximadamente un tercio de los casos en los que el modelo proporcionó una respuesta incorrecta, era consciente de que la respuesta no era precisa.
Este comportamiento ocurre principalmente cuando el modelo es solicitado para proporcionar referencias de fuentes como artículos o libros, para los cuales no tiene acceso directo ni la capacidad de verificación. A pesar de estas limitaciones, OpenAI asegura que o1-preview ha mostrado mejoras significativas en métricas de seguridad, como la reducción de sesgos relacionados con la edad, género y raza, además de ser más difícil de manipular en comparación con modelos anteriores.
Potencial en o1-mini
Por otra parte, el modelo o1-mini, es una versión más pequeña y asequible de o1-preview. Fue diseñado principalmente para tareas de programación y tiene un costo considerablemente menor, alrededor de un 80% menos que su contraparte más avanzada. Ambos modelos han demostrado ser eficaces en tareas que requieren razonamiento complejo y planificación, aunque OpenAI admite que no superan a sus predecesores en todas las métricas, y los usuarios han reportado tiempos de respuesta más lentos debido al procesamiento adicional que realiza el modelo antes de proporcionar una respuesta final.
Además, ambos modelos al estar en una etapa temprana, no tienen acceso a Internet para buscar información en la Web, ni tampoco la capacidad de leer archivos o imágenes que el usuario sube como si lo hace GPT-4. Por lo mismo, OpenAI recomienda que para el uso más tradicional de ChatGPT —y no tan científico— es mejor idea seguir ocupando a GPT-4o.