Root Signals presenta Root Judge, nuevo LLM centrado en la fiabilidad y el despliegue local

Especializada en evaluación de modelos de lenguaje, la compañía ha revelado su última creación, un sistema diseñado para reducir las alucinaciones contextuales, facilitar la toma de decisiones y reforzar la privacidad en entornos profesionales.
20 de febrero, 2025
Root Signals presenta Root Judge, nuevo LLM centrado en la fiabilidad y el despliegue local

Root Judge es un nuevo modelo de lenguaje grande (LLM) basado en Meta Llama-3.3-70B-Instruct que actúa cómo evaluador de otros modelos de lenguaje para verificar que no cometan alucinaciones.

Las llamadas alucinaciones son el gran problema de los actuales modelos de lenguaje grande, que parecen deseosos de responder a las preguntas que les realizan los usuarios con respuestas que a estos les agraden… aunque sean falsas. Por lo tanto, una herramienta que las detecte y que sea capaz de alertar sobre ello, evita la inclusión de las llamadas «alucinaciones» en todo tipo de trabajos, mejorando el producto que ofrece la IA.

A través de distintas técnicas de entrenamiento, Root Judge busca ofrecer resultados explicables que puedan ayudar a mejorar la supervisión en procesos de generación de texto. De esta forma, se pretende aportar mayor transparencia en aplicaciones empresariales, en ámbitos como la monitorización de computación de inferencia-tiempo, o la validación de datos sintéticos que, después, servirán para entrenar nuevos modelos de datos.

Con el foco puesto en la privacidad, Root Judge está orientado a entornos corporativos que necesitan salvaguardar datos sensibles sin transferirlos a infraestructuras ajenas (léase cloud). Gracias a su diseño, las empresas pueden utilizar sus capacidades de detección y evaluación internamente, lo que, de acuerdo con la firma, evita riesgos asociados con el intercambio de información a través de servicios públicos.

Un enfoque en la detección de alucinaciones y la privacidad

La herramienta ofrece funciones de bloqueo automático de alucinaciones en los flujos RAG (Retrieval-Augmented-Generation), con el fin de corregir posibles imprecisiones derivadas de la generación de contenido. Además, permite la realización de juicios por parejas (pairwise preference judgments), algo que se considera relevante para tomar decisiones basadas en criterios definidos por los equipos internos de cada organización.

Otro aspecto señalado por la empresa es la posibilidad de personalizar el modelo para distintos casos de uso, de manera que los encargados de TI y los responsables de compras tecnológicas puedan evaluar si la solución encaja en sus entornos. Root Judge se encuentra alineado con la idea de evitar dependencias de servicios externos y subraya la capacidad de operar en entornos locales sin exponer información delicada.

En el marco de una iniciativa enfocada en la responsabilidad en la adopción de la inteligencia artificial, representantes del sector han mostrado interés en tecnologías que ofrezcan explicaciones claras sobre el proceso de evaluación. Según Root Signals, la característica de ofrecer justificaciones específicas en los resultados es una de las piezas clave que diferencia este LLM de otras alternativas, ya sean cerradas o de código abierto.

Fundamentos de entrenamiento y optimización

Root Judge ha sido entrenado sobre un conjunto de datos con anotaciones humanas orientadas a mejorar su capacidad de seguir instrucciones y citar fuentes con mayor rigor. Para su optimización, se emplearon técnicas como Direct Preference Optimization (DPO) junto con Identity Preference Optimization (IPO). El objetivo era perfilar el modelo para responder con mayor precisión y justificar la puntuación de cada respuesta.

El proceso de post-entrenamiento se realizó sobre un total de 384 GPUs AMD Radeon Instinct MI250X dentro del LUMI Supercomputer, infraestructura de alta capacidad localizada en Finlandia. Representantes de la industria tecnológica consideran que estos esfuerzos demuestran la fortaleza de las plataformas de computación de alto rendimiento y el interés de distintos actores europeos en impulsar una IA que combine potencia y fiabilidad.

Portavoces de Root Signals señalan que esta configuración de cómputo ha sido clave para alcanzar resultados competitivos. El sistema, según la compañía, afirma superar en detección de alucinaciones a algunos modelos cerrados y a otras alternativas abiertas de tamaño similar. No obstante, desde Root Signals ponen de relieve las pruebas internas de cada empresa para validar tales ventajas en entornos reales.

Disponibilidad y posibles aplicaciones

La firma ha confirmado que Root Judge se distribuye bajo una licencia de pesos abiertos, lo que permite a desarrolladores y empresas adaptarlo e integrarlo en sus flujos de trabajo de forma flexible. Así, se plantea como una solución que no sólo evalúa la fiabilidad de la generación de texto, sino que también puede optimizar costes de inferencia y reforzar el control en la producción de contenidos de IA.

Además, Root Signals ha habilitado la compatibilidad con su plataforma EvalOps, centrada en la construcción y gestión de medición personalizada para aplicaciones y agentes de IA en producción. Esta herramienta comparativa facilita la prueba simultánea de Root Judge con otros modelos, tanto cerrados como de código abierto, lo que facilita la selección de la solución más adecuada para cada necesidad.

La compañía asegura que su modelo se adapta a sectores variados, desde investigación hasta desarrollo de productos empresariales que requieran criterios fiables de evaluación.