El desarrollo de agentes de búsqueda profunda, diseñados para responder a cuestiones complejas que requieren razonamiento a través de múltiples documentos, se ha convertido en una prioridad para agilizar los procesos de obtención de información. Sin embargo, el sector se enfrenta a un obstáculo considerable: la recolección de anotaciones humanas para entrenar estos sistemas resulta prohibitivamente costosa debido a la longitud y complejidad de las trayectorias de exploración necesarias. Ante este desafío, investigadores de Google Cloud AI Research y la Universidad de Nueva York han propuesto un flujo de trabajo agéntico denominado SAGE, que genera automáticamente pares de preguntas y respuestas de alta calidad con un nivel de dificultad controlado.
La metodología planteada se aleja de los enfoques tradicionales de generación aumentada por recuperación, que solían centrarse en preguntas que podían resolverse con una única búsqueda. Aunque conjuntos de datos posteriores intentaron abordar el razonamiento de múltiples saltos, estos a menudo dependían de una extensa anotación humana o de estructuras preexistentes. Consiguiendo dificultar su escalabilidad a tareas que exigen cadenas de búsqueda y razonamiento más largas. Para solventar estas limitaciones, SAGE implementa un marco de doble agente compuesto por un generador de datos y un agente de búsqueda que interactúan entre sí.
El funcionamiento del sistema se basa en un proceso iterativo. Inicialmente, el agente generador propone un borrador de pregunta y respuesta basado en un documento y un nivel de dificultad objetivo. Posteriormente, el agente de búsqueda intenta resolver dicha pregunta, proporcionando lo que los investigadores denominan «retroalimentación de ejecución«. Esta interacción es clave, ya que los componentes colaboran a lo largo de varias rondas para refinar los datos hasta que estos satisfacen los requisitos de complejidad deseados. Este mecanismo permite corregir un error común en la generación sintética: la discrepancia entre la dificultad que el generador pretende imprimir a la pregunta y los pasos reales que el buscador necesita para resolverla.
Los resultados de las evaluaciones intrínsecas indican que este sistema no solo incrementa la corrección de los datos generados, sino que también asegura que las preguntas requieran estrategias de razonamiento diversas. De hecho, el análisis de los datos producidos revela una mayor presencia de razonamientos temporales y cálculos numéricos en comparación con los bancos de pruebas existentes. Consiguiendo equilibrar la distribución de los tipos de lógica necesarios para la resolución de problemas.
En cuanto al impacto en el rendimiento de los modelos, la evaluación extrínseca arroja cifras positivas. El entrenamiento de agentes de búsqueda profunda con estos datos sintéticos ha demostrado una mejora relativa de hasta el 23% en bancos de pruebas populares. Específicamente, en modelos como QWEN-7B, el uso de datos generados por SAGE permitió alcanzar una precisión del 38,1% en evaluaciones dentro del dominio, superando significativamente a los modelos entrenados con conjuntos de datos públicos combinados como NQ y HotpotQA, que se quedaron en un 29,1%.
Un aspecto relevante para los responsables de tecnología en las empresas es la capacidad de generalización que ofrece este método. Los experimentos adicionales mostraron que los agentes entrenados con datos basados en un corpus fijo, como Wikipedia; pueden adaptarse al uso de Google Search en tiempo de inferencia sin necesidad de entrenamiento adicional. Esto se evidenció en el banco de pruebas GAIA, donde los modelos entrenados con la metodología propuesta lograron mejoras sustanciales frente a las líneas base existentes.
Finalmente, el estudio destaca que el aumento de la dificultad de los datos por sí solo no es suficiente; es necesario un equilibrio entre complejidad y capacidad de aprendizaje. Aunque el sistema actual depende de un agente de búsqueda fijo para proporcionar retroalimentación, los autores sugieren que el futuro de esta tecnología podría pasar por la coevolución de ambos agentes, lo que perfeccionaría aún más la calidad de los datos generados.



