Phare es un benchmark multilingüe pensado para evaluar modelos de lenguaje de gran tamaño (LLM) en apartados de seguridad y fiabilidad como alucinaciones, precisión factual, sesgos, resistencia a daño y resistencia a jailbreaks. Se apoya en principios como el diseño multilingüe, la independencia frente a los desarrolladores de modelos y la reproducibilidad mediante un conjunto privado de evaluación y un conjunto público para la verificación.
En la práctica, Phare organiza la evaluación en módulos asociados a determinados riesgos y, dentro de cada módulo, define tareas concretas; por ejemplo, en el ámbito de la fiabilidad factual contempla pruebas para medir la capacidad de responder con información correcta sin inventar datos, para gestionar preguntas con premisas falsas o encuadres engañosos, para abordar afirmaciones discutibles (incluidas pseudociencias o teorías de la conspiración) y para mantener un uso robusto de herramientas cuando la entrada llega incompleta o mal formada.
La metodología publicada por el proyecto describe un proceso de creación de muestras en tres etapas, empezando por la recopilación de contenidos y la elaboración de prompts que reflejen situaciones reales, para seguir transformando dicho material en casos de prueba que mantengan una coherencia cultural y lingüística, para acabar con un control de calidad basado en revisión humana para asegurar precisión y relevancia.
Hace unos días, además, Phare anunció una actualización del módulo de resistencia a jailbreaks y la incorporación de 33 modelos nuevos al benchmark, incluyendo 20 modelos de razonamiento. Con jailbreaks me refiero a los intentos deliberados para sortear las barreras de seguridad del modelo mediante técnicas como la inyección de prompts, encuadre de la petición, o el uso de codificaciones para ocultar la verdadera intención del prompt. El propio proyecto sitúa esta dimensión dentro de la robustez ante abuso intencional y ataques adversarios.
Las puntuaciones del ranking se obtienen promediando los resultados de todas las tareas y lenguas dentro de cada módulo, y un valor más alto indica mejor rendimiento.
En el ranking global, Claude 4.5 Haiku figura en primera posición con una media del 83,16%, seguido por Claude 4.5 Opus (82,38%) y Claude 4.5 Sonnet (77,60%). Para toparnos con el primer modelo que no es producido por Antrophic por su puntuación global en materia de seguridad, tenemos que ir, en este momento, al quinto puesto, en el cual tenemos a Llama 3.1 405B Instruct OR (76,42%) de Meta.
Por módulos, el modelo más resistente a alucinaciones es Claude 4.5 Opus, con un 88,23% en este campo concreto, seguido por varios de los modelos de la misma Antrophic. En este apartado, en primer modelo que no es de Antrophic lo encontramos en la séptima posición, que ocupa el GPT 5.1 de OpenAI.
Si pasamos a resistencia a daño, la clasificación la encabeza Claude 4.5 Opus con un 99,93%, seguido de Claude 4.5 Sonnet (99,05%) y GPT 5 Mini (98,29%).
Es en la resistencia a sesgos que encontramos la única categoría que no está encabezada por un modelo de Antrophic y, además, está bastante repartida entre productores: el ganador es GPT 4.1 Mini con un 88,12%, seguido de Grok 4 Fast No reasoning (80,26%) y de Llama 3.1 405B Instruct OR (75,23%). En esta ocasión, el primer modelo de Antrophic lo encontramos en la sexta posición de la lista, ocupada por Claude 4.5 Haiku con una puntuación del 70,66%.
Finalmente, en lo concerniente a resistencia al jailbreak, Antrophic vuelve a ocupar las tres primeras posiciones del podio con, respectivamente y empezando por el modelo ganador, Claude 4.1 Opus (81,35%), que viene seguido de Claude 4.5 Opus (79,83%) y Claude 4.5 Haiku (78,51%). Llama 3.1 405B Instruct OR ocupa el cuarto lugar con un 76,55% de puntuación.
La conclusión es simple: en materia de seguridad, los modelos desarrollados por Antrophic arrasan. Cabe destacar que, desde el mismo sitio web del proyecto, podemos ordenar la lista de modelos según la puntuación que hayan obtenido en cualquiera de los apartados medidos, de forma que con ello podemos decantar nuestra elección de modelo de lenguaje según las necesidades de seguridad del proyecto y/o la organización en que trabajemos.



