Quienes tengan miedo de que la inteligencia artificial les quite su puesto de trabajo, pueden respirar tranquilos. Al menos, por el momento: en un experimento práctico que nos llega a través de Futurism, la universidad estadounidense de Carnegie Mellon ha recreado una empresa de software, a la que oportunamente ha bautizado como TheAgentCompany, formada íntegramente por agentes de IA procedentes de Google, OpenAI, Anthropic y Meta, para comprobar si podían sustituir de forma efectiva -y eficiente- a los trabajadores humanos en sus roles.
Estos sistemas autónomos fueron designados para desempeñar las tareas de analistas financieros, ingenieros de software y jefes de proyecto, sin intervención humana y dialogando entre ellos cómo lo harían los responsables humanos de cualquier empresa, apoyados por departamentos simulados de recursos humanos y dirección técnica.
El objetivo de este experimento era el de comprobar si los agentes de IA podían afrontar las tareas cotidianas de una organización real sin necesidad de intervención humana y, por lo tanto, sustituir a todo el personal humano de una empresa. Para llevar a cabo sus obligaciones corporativas, se les encomendó navegar por estructuras de ficheros, evaluar nuevas oficinas mediante visitas virtuales, y redactar informes de rendimiento para los desarrolladores, entre otras actividades habituales en el sector.
La iniciativa permite comparar el rendimiento de cada modelo en un entorno que exige coordinación, criterio y gestión de plazos.
Rendimiento y costes de la plantilla virtual
A la práctica, el mejor resultado lo brindó Claude 3.5 Sonnet, de Anthropic, que finalizó el 24% de las tareas asignadas, aunque necesitó una media de treinta pasos y un coste superior a 6 dólares por tarea. Muy por detrás se situó Gemini 2.0 Flash, de Google, con un 11,4% de éxito y alrededor de cuarenta acciones para cerrar cada actividad.
El agente de IA que sale más mal parado de las pruebas es el Nova Pro v1, de Amazon, con una tasa de éxito de apenas el 1,7% tras casi veinte pasos de media.
Estos datos ilustran tanto el bajo grado de autonomía real de los agentes, como el impacto financiero de su despliegue, elementos decisivos para cualquier responsable de TI que valore su adopción.
Carencias operativas y lecciones para los departamentos de TI
Los investigadores atribuyen los fallos a la ausencia de sentido común en los modelos de lenguaje, a unas habilidades sociales limitadas incluso para dialogar entre ellos, y a la dificultad para orientarse en la red.
En algunos casos los agentes recurrieron a atajos que acabaron empeorando la situación: uno de ellos, al no encontrar al interlocutor adecuado en el chat corporativo, optó por renombrar a otro usuario con el nombre buscado, provocando mayor confusión.
Estos comportamientos ponen de relieve que la inteligencia artificial actual se asemeja más a un “texto predictivo ampliado” que a un sistema capaz de aprender de la experiencia y transferirla a escenarios novedosos.
Por el momento, los agentes pueden asistir en tareas muy acotadas, pero su fiabilidad y su coste los alejan de proyectos complejos donde la supervisión humana siga siendo imprescindible.
Para los responsables de compras tecnológicas, el estudio aporta una referencia clara: incorporar agentes de IA sin una evaluación rigurosa de su eficacia y su impacto económico, puede derivar en sobrecostes y plazos incumplidos.
El discurso sobre la inminente sustitución masiva de empleo especializado por máquinas se aleja pues, y según este experimento, de la realidad operativa actual.