Artificial intelligence

Google Optimizes Gemma 4 Models for Low-Memory Devices

June 6, 2026

Quick answer

Компания Google выпустила обновлённые версии своих открытых моделей Gemma 4, оптимизированные с помощью технологии quantization-aware training (QAT). Этот подход позволяет значительно сократить объём памяти, необходимый для работы моделей на устройствах, сохраняя при этом высокое качество генерации. В отличие от традиционной посттренировочной квантизации (PTQ), QAT интегрируется непосредственно в процесс обучения, что минимизирует потери производительности и ускоряет обработку данных.

Google has announced new versions of its Gemma 4 model family, now supporting quantization-aware training (QAT). This technology reduces model size and lowers RAM requirements, which is critical for deployment on mobile devices and laptops. Unlike the standard post-training quantization (PTQ) approach, QAT is applied during training, preserving model quality even after compression.

The QAT-enabled Gemma 4 models are available in five variants: Gemma 4 E2B, E4B, 12B, 26B A4B, and 31B. The most compact version, Gemma 4 E2B, requires less than 1GB of RAM, making it suitable for smartphones. Google also introduced a specialized mobile quantization scheme, including 2-bit compression for specific model components and vocabulary optimization, further reducing system load.

The new models support multiple formats: non-quantized QAT checkpoints, GGUF format, mobile-optimized versions, and Compressed Tensors. According to Google, these models deliver quality comparable to full-sized bfloat16 versions while requiring significantly fewer resources. The models can be downloaded from Hugging Face or via LM Studio for local use on PCs and mobile devices.

Common questions

Common questions: Компания Google выпустила обновлённые версии своих открытых моделей Gemma 4, оптимизированные с помощью технологии quantization-aware training (QAT). Этот подход позволяет значительно сократить объём памяти, необходимый для работы моделей на устройствах, сохраняя при этом высокое качество генерации. В отличие от традиционной посттренировочной квантизации (PTQ), QAT интегрируется непосредственно в процесс обучения, что минимизирует потери производительности и ускоряет обработку данных.

Dzen feed: /feed/dzen.xml · RSS: /feed.xml