Un equipo de desarrolladores de DeepMind, firma subsidiaria de Google especializada en inteligencia artificial, ha presentado Gemma 3 270M, un modelo compacto de 270 millones de parámetros pensado para cumplir con tareas concretas tras un proceso de afinado (fine-tuning).
Este anuncio llega tras una sucesión de lanzamientos que han dado forma a la tercera generación de esta línea de modelos abiertos: primero aparecieron Gemma 3 y Gemma 3 QAT, optimizados para aceleradores en la nube y equipos de sobremesa; después, Gemma 3n llevó la inferencia multimodal en tiempo real a dispositivos de borde. Con estos hitos, las descargas acumuladas superaron la barrera de los 200 millones la semana pasada, según datos de Google.
Este nuevo modelo se basa en una arquitectura dividida en 170 millones de parámetros de embedding —responsables de convertir cada palabra o símbolo en valores numéricos— y 100 millones asignados a los bloques transformadores que procesan la información. Gracias a su gran vocabulario de 256 000 tokens, el modelo puede manejar términos poco frecuentes sin recurrir a un sistema de mayor tamaño. Este diseño lo hace especialmente indicado como punto de partida para posteriores tareas de fine-tuning, fase en la que se ajusta el comportamiento del modelo con datos específicos correspondientes al dominio de uso.
Según pruebas internas, la versión cuantizada en INT4 consumió solo el 0,75% de la batería de un Pixel 9 Pro tras 25 conversaciones. La cuantización —proceso que reduce la precisión numérica de los parámetros— se ha aplicado con técnicas de entrenamiento consciente de cuantización (QAT), lo que mitiga la pérdida de rendimiento al pasar de 16 a 4 bits por parámetro. Este ahorro resulta clave cuando el despliegue se realiza en dispositivos con recursos limitados o cuando el objetivo es reducir el gasto energético en centros de datos.
En paralelo a la versión preentrenada, se publica otra, esta instruccional, preparada para seguir órdenes sencillas sin necesidad de afinado adicional. Ambas variantes comparten la misma base tecnológica, lo que facilita migrar de una a otra o compararlas durante las primeras pruebas.
La filosofía que lo inspira es emplear la herramienta adecuada: un modelo pequeño que, tras el fine-tuning, resuelve con rapidez y a menor coste, tareas como la clasificación de texto o extracción de datos. La propia experiencia del ecosistema Gemma respalda esta estrategia: el enfoque ya ha demostrado su eficacia: Adaptive ML superó a modelos propietarios de mayor tamaño al moderar contenidos multilingües tras especializar un Gemma 3 4B. Con 270 M, la misma lógica se aplica a proyectos que buscan aún más ligereza.
Entre los escenarios de uso destacan aquellos con gran volumen de peticiones y definición clara del objetivo, que van desde el análisis del sentimiento hasta el enrutado de consultas o las comprobaciones de cumplimiento normativo. El reducido tamaño acelera los experimentos de entrenamiento, abarata la infraestructura necesaria y permite que toda la operación se realice localmente cuando la confidencialidad de los datos lo exige. Así mismo, facilita mantener una flota de modelos, cada uno afinado para una tarea distinta, sin que el gasto se dispare.
Gemma 3 270M se distribuye en versión preentrenada e instruccional a través de Hugging Face, Ollama o Docker, y puede desplegarse tanto en la nube como directamente en el dispositivo. La documentación oficial incluye recetas de afinado completo con herramientas como Hugging Face, UnSloth y JAX, además de guías para probar la inferencia en Vertex AI, llama.cpp, LiteRT, Keras o MLX. Una vez especializado, el modelo se puede publicar en entornos locales o en servicios gestionados como Google Cloud Run.
Con esta incorporación, la llamada «Gemmaverse» refuerza su apuesta por la variedad de tamaños y la apertura de sus modelos, ofreciendo nuevas opciones para quienes buscan equilibrar potencia, coste y privacidad en la adopción de la inteligencia artificial.



