¿Imaginas un modelo de inteligencia artificial que pueda ver, escuchar y entender vídeos directamente en tu portátil, sin conexión y gratis? Pues ya no tienes que imaginarlo. Google DeepMind acaba de lanzar Gemma 4 12B, y está a punto de cambiar las reglas del juego para los desarrolladores y usuarios de a pie.
Una bestia multimodal… que cabe en una mochila
Olvida los enormes y costosos modelos que solo viven en la nube. Gemma 4 12B es un transformador de solo decodificador de 12.000 millones de parámetros, pero su verdadera magia está en su diseño «libre de codificadores». Esto significa que el texto, las imágenes, el audio y el vídeo se introducen directamente en el núcleo principal del modelo, sin pasos intermedios. El resultado es una eficiencia brutal.
Aquí está lo mejor: funciona en un portátil con solo 16 GB de memoria. No se necesita una GPU de gama alta; un Mac con Apple Silicon o un portátil con una GPU de consumo son suficientes. Y sí, viene con licencia Apache 2.0, completamente libre para uso, modificación y despliegue comercial sin barreras.
«Ayuda a que el modelo funcione de manera muy eficiente con recursos limitados», comentó Lian Jye Su, analista de Omdia, citado por AI Business.
Adiós a los cuellos de botella, hola a la velocidad
Las versiones anteriores de Gemma de tamaño medio usaban codificadores separados para visión (550 millones de parámetros) y audio (300 millones de parámetros). ¡Todo eso ha desaparecido! La nueva versión 12B utiliza un «incrustador» visual de solo 35 millones de parámetros que divide las imágenes en parches y los procesa de forma extremadamente directa.
El audio es aún más sorprendente: los flujos de audio de 16 kHz se cortan en fragmentos y se proyectan directamente en el mismo espacio que los tokens de texto. No hay extracción de características complejas. Este diseño unificado no solo acelera todo el proceso, sino que también significa que cuando ajustes el modelo para una tarea específica, actualizarás la visión, el audio y el texto en un solo paso.
¿Y qué puede hacer realmente?
Aunque Google no ha publicado tablas de benchmarks completas, sus notas oficiales indican que el rendimiento de este modelo de 12B se acerca al de su modelo más grande de 26B, pero usando menos de la mitad de memoria. Las demostraciones son impresionantes:
- Reconocimiento automático de voz y diarización: Transcribe audio y distingue entre diferentes hablantes de forma nativa.
- Razonamiento agéntico: Ejecuta flujos de trabajo de múltiples pasos localmente, como un asistente autónomo.
- Entendimiento de vídeo: Un demo analizó un segmento de 5 minutos de una keynote de Google I/O.
- Generación de código: Creó una aplicación de procesamiento de imágenes con Gradio usando su propia generación de código.
Pero aquí viene lo realmente interesante: según informa Marktechpost, en la propia app Google AI Edge Eloquent de Google, el cambio a Gemma 4 12B supuso un salto de calidad general del 60%+.
Llévatelo a casa hoy mismo
El modelo ya está disponible para descargar en Hugging Face y Kaggle (la variante de instrucción es google/gemma-4-12B-it). Es compatible con toda la pila de herramientas que te gustan: llama.cpp, LM Studio, Ollama, vLLM, SGLang y MLX, entre otros.
Google también ha lanzado un «Skills Repository», una biblioteca de habilidades para que los desarrolladores empiecen a construir agentes inteligentes de inmediato. Esto es parte de una tendencia más amplia, vista justo un día antes con los nuevos modelos Aion de Microsoft, de llevar las cargas de trabajo de IA del centro de datos a nuestros dispositivos de borde.
¿La conclusión? La inteligencia artificial avanzada y multimodal ya no es exclusiva de los gigantes tecnológicos con centros de datos infinitos. Ahora puede vivir, trabajar y crear directamente en tu máquina. El futuro descentralizado de la IA acaba de recibir un enorme impulso, y viene con el logotipo de Google DeepMind.









