Un grupo de investigadores de instituciones como la Universidad del Sur de California, Stanford, Oxford, Princeton y la Universidad de Nueva York, ha analizado en profundidad la utilidad de los modelos grandes de lenguaje (LLM), centrando su atención en la capacidad de estos sistemas para extraer información estructurada a partir de textos no estructurados, y en el actual contexto de integración de estas herramientas en las organizaciones a todos los niveles.
La investigación se aleja de los usos más comunes de la IA generativa, como la creación de textos o la simulación de conversaciones, para centrarse en una necesidad crítica para las empresas y organizaciones: transformar datos brutos en información estructurada y procesable.
Los autores del análisis han demostrado que esta tecnología no solo hace más accesible la recopilación exhaustiva de datos, sino que en general permite incrementar la eficiencia y el alcance de las investigaciones, permitiendo abordar volúmenes de información que anteriormente resultaban inabarcables por limitaciones presupuestarias o de personal.
La principal conclusión del estudio es que la implementación de modelos como GPT reduce significativamente el tiempo y los recursos necesarios para la recolección de datos, automatizando la recuperación de detalles en fuentes tan diversas como documentos históricos, actas de reuniones administrativas y artículos de prensa.
Para validar estas capacidades, se llevaron a cabo cuatro aplicaciones prácticas que ilustran la versatilidad de la herramienta.
En primer lugar, se utilizó la API de GPT para limpiar errores de reconocimiento óptico de caracteres (OCR) en archivos históricos de la Segunda Guerra Mundial. Al combinar herramientas de código abierto como Tesseract con el modelo de OpenAI, se logró depurar el «ruido» del texto escaneado. Los resultados mostraron que el sistema fue capaz de corregir errores tipográficos y de espaciado con una eficacia notable, reduciendo la tasa de error de caracteres en un 6% en comparación con el texto original, y facilitando la identificación precisa de ubicaciones y actores clave.
En un segundo escenario, orientado a la gestión administrativa, se procesaron actas de reuniones de comités asesores federales de los Estados Unidos. El objetivo era extraer nombres, afiliaciones y cargos de los participantes a partir de documentos en formato PDF semi-estructurados. A pesar de la complejidad que presentaban las etiquetas de los cargos, que variaban enormemente, el modelo logró estructurar la información en formato CSV.
El coste de este procesamiento resultó ser extremadamente bajo, situándose en torno a los 30 centavos de dólar por cada transcripción de 50.000 caracteres, lo que supone un ahorro drástico en comparación con la contratación de personal para la introducción manual de datos.
El tercer y cuarto caso de uso abordaron la extracción de fuentes en noticias periodísticas y la recopilación de datos biográficos a partir de búsquedas en Internet respectivamente. En estas pruebas, la tecnología demostró su capacidad para manejar la lógica compleja y la ambigüedad del lenguaje natural. De hecho, en la tarea de codificar información familiar de alcaldes italianos a partir de resultados de búsqueda, el modelo GPT-4 superó a los codificadores humanos en términos de precisión, cometiendo menos errores de falsos positivos, aunque mostró una tendencia a omitir información cuando esta se presentaba de forma muy intrincada.
Sin embargo, el despliegue de estas soluciones no se halla libre de desafíos técnicos que los responsables de tecnología de las organizaciones deben considerar. El estudio subraya la importancia crítica de la «ingeniería de prompts», es decir, el diseño iterativo de las instrucciones que se dan al modelo.
Los mejores resultados se obtienen cuando se especifican claramente el contexto, el objetivo y el formato de salida deseado, como JSON o CSV y, en tareas complejas, resulta beneficioso dividir el proceso en múltiples pasos secuenciales. Así mismo, se detectaron limitaciones relacionadas con la ventana de contexto de los modelos, ya que el rendimiento tiende a degradarse cuando se procesan textos excesivamente largos, lo que obliga a segmentar la información.
Desde una perspectiva operativa y ética, la adopción de estas herramientas plantea interrogantes sobre el futuro del empleo en tareas de asistencia a la investigación. Si bien la automatización permite redirigir el talento humano hacia tareas de mayor valor añadido como la validación de datos y el análisis cualitativo, existe la preocupación por la reducción de oportunidades formativas para los perfiles junior que tradicionalmente realizaban estas labores manuales.
Además, quienes toman las decisiones de compra, deben tener en cuenta los riesgos de privacidad al tratar con datos sensibles y el impacto ambiental derivado del alto consumo energético que requieren estos modelos computacionales.



