OpenAI se acerca a la AGI con o3

El nuevo modelo de lenguaje grande de la compañía creadora de ChatGPT obtuvo un 85% en la prueba ARC-AGI, superando a la marca previa de 55% y equiparándose con la media humana. Este hito ha llevado a la comunidad investigadora a replantearse la cercanía de la inteligencia artificial general, y su posible impacto económico y social.
30 de diciembre, 2024
OpenAI se acerca a la AGI con o3
OpenAI se acerca a la AGI con o3

La reciente marca alcanzada por el o3 system de OpenAI este pasado 20 de diciembre, ha generado una notable expectación. Según las cifras conocidas, el nuevo modelo logró un 85% de aciertos en el ARC-AGI benchmark, un test que pretende medir la capacidad de adaptación y resolución de problemas novedosos, según podemos leer en un completo artículo de The Conversation.

El resultado destaca frente a la anterior marca del 55%, y se aproxima al promedio alcanzado por las personas. Asimismo, se informa de un alto rendimiento en una evaluación compleja de matemáticas. Para muchos observadores, este hecho podría suponer un paso importante hacia la consecución de la inteligencia artificial general (AGI, por sus siglas en inglés), aunque los investigadores y expertos se muestran cautos y destacan la necesidad de más evidencias en este sentido.

Al igual que otras grandes empresas del sector, OpenAI ha manifestado su objetivo de avanzar hacia la denominada AGI. La posibilidad de que un sistema supere y generalice en tareas diversas, adaptándose a nuevos escenarios con rapidez, plantea interrogantes sobre cuán cerca podría estar la creación de máquinas capaces de un desempeño similar al humano. Varias voces en el ámbito tecnológico han recibido estos datos con entusiasmo y prudencia, reconociendo que la trayectoria hacia la AGI podría ser más corta de lo que se anticipaba.

Los indicios de este progreso, sin embargo, no disipan la cautela. Existe un escepticismo razonable sobre la posibilidad de que los resultados en este tipo de pruebas se traduzcan directamente en habilidades generales reales, especialmente en entornos no controlados.

Los fundamentos de la prueba ARC-AGI

Para evaluar el alcance del logro, es esencial entender qué mide exactamente el test ARC-AGI. Su eje principal se basa en la sample efficiency, un concepto que mide cuántos ejemplos necesita un sistema para comprender situaciones nuevas y, de esta forma, extraer reglas. Modelos previos, como GPT-4, han demostrado solvencia en tareas cotidianas, pero su desempeño se resiente en contextos poco frecuentes, en los que la disponibilidad de datos es escasa.

La muestra limitada de problemas disponibles en el ARC-AGI obliga a un sistema de inteligencia artificial a “adivinar” patrones partiendo de muy poca información. A diferencia de otros modelos que funcionan bien con enormes volúmenes de datos, estas pruebas ponen a prueba su flexibilidad y rapidez de adaptación.

El carácter repetitivo de ciertas tareas para las que hoy se utilizan los sistemas de IA deja espacio para que, en un futuro, la generalización mejore su utilidad. Muchos expertos sostienen que la habilidad de extraer reglas amplias y aplicarlas de forma precisa es esencial para hablar de inteligencia en el sentido más amplio.

Generalización y adaptabilidad

La prueba ARC-AGI emplea cuadrículas y patrones. Mediante ejemplos muy simples en apariencia, la IA debe deducir las reglas subyacentes y aplicarlas a un caso nuevo, con el objetivo de transformar la cuadrícula inicial en la cuadrícula final.

Lo que ocurrió con el modelo o3, es que mostró una capacidad inusual para sortear este reto con escasos ejemplos, identificando la regla y trasladándola de forma precisa a la nueva situación.

Para resolver estos ejercicios, los sistemas no pueden suponer reglas demasiado específicas. Cuanto más sencillas y generales sean esas directrices, más posibilidades hay de que el sistema se adapte a circunstancias novedosas. Esta idea de “reglas débiles” explica la robustez del modelo ante situaciones que no ha visto en su entrenamiento.

No está claro el método exacto que OpenAI usó para que el modelo adopte estas reglas o cadenas de pasos lógicos. Sin embargo, es probable que, gracias a un proceso de aprendizaje adicional y al análisis de distintos escenarios, el sistema sea capaz de escoger la estrategia más adecuada.

La aproximación de OpenAI con el modelo o3

La compañía de Sam Altman ha ofrecido pocos detalles sobre o3, limitando la información a presentaciones y probando el sistema de forma restringida en algunos laboratorios y centros de investigación. Aunque se sabe que el modelo cuenta con la capacidad de “invertir” más tiempo en pensar tareas difíciles, se desconoce hasta qué punto la arquitectura interna difiere de otras soluciones previas de la compañía.

El creador de la prueba ARC-AGI, Francois Chollet, plantea que o3 podría emplear la búsqueda de distintas “cadenas de pensamiento” o secuencias lógicas para resolver el problema, eligiendo la más adecuada según un criterio o heurística. Este enfoque recordaría la estrategia que aplicó Google con AlphaGo, al buscar el movimiento más apropiado para cada jugada.

Si el funcionamiento del modelo es similar al utilizado en el juego Go, o3 se vería impulsado por un mecanismo que permite, a grandes rasgos, escoger la secuencia de pasos con más probabilidades de éxito. Esa estrategia también puede describirse como “más sencilla” o “menos rígida”, cualidad que fomenta la adaptación.

Perspectivas de la inteligencia general

De confirmarse estas hipótesis, el nuevo sistema podría traducirse en cambios económicos y sociales notables, ya que la capacidad de auto-mejora acelerada generaría un entorno inédito. Aun así, la solidez de estos resultados y su aplicabilidad en la práctica deben someterse a evaluaciones más extensas y transparentes, que incluyan la comprensión de las limitaciones y el índice de fallos del modelo.

En la actualidad, la comunidad espera más datos que aclaren cuánto se ha avanzado realmente en el camino hacia la AGI. Si finalmente o3 se publica de forma más amplia y confirma su aparente adaptabilidad, el debate sobre nuevas medidas de control, gobernanza y seguridad en la inteligencia artificial cobrará más relevancia. En caso contrario, se trataría igualmente de un logro técnico significativo, que no supondría, de inmediato, una alteración profunda de los procesos habituales de IA.