Google Optimizes Gemma 4 Models for Low-Memory Devices

Photo: Android Authority
Quick answer
Компания Google выпустила обновлённые версии своих открытых моделей Gemma 4, оптимизированные с помощью технологии quantization-aware training (QAT). Этот подход позволяет значительно сократить объём памяти, необходимый для работы моделей на устройствах, сохраняя при этом высокое качество генерации. В отличие от традиционной посттренировочной квантизации (PTQ), QAT интегрируется непосредственно в процесс обучения, что минимизирует потери производительности и ускоряет обработку данных.
Google has announced new versions of its Gemma 4 model family, now supporting quantization-aware training (QAT). This technology reduces model size and lowers RAM requirements, which is critical for deployment on mobile devices and laptops. Unlike the standard post-training quantization (PTQ) approach, QAT is applied during training, preserving model quality even after compression.
The QAT-enabled Gemma 4 models are available in five variants: Gemma 4 E2B, E4B, 12B, 26B A4B, and 31B. The most compact version, Gemma 4 E2B, requires less than 1GB of RAM, making it suitable for smartphones. Google also introduced a specialized mobile quantization scheme, including 2-bit compression for specific model components and vocabulary optimization, further reducing system load.
The new models support multiple formats: non-quantized QAT checkpoints, GGUF format, mobile-optimized versions, and Compressed Tensors. According to Google, these models deliver quality comparable to full-sized bfloat16 versions while requiring significantly fewer resources. The models can be downloaded from Hugging Face or via LM Studio for local use on PCs and mobile devices.
Common questions
- Common questions
- Компания Google выпустила обновлённые версии своих открытых моделей Gemma 4, оптимизированные с помощью технологии quantization-aware training (QAT). Этот подход позволяет значительно сократить объём памяти, необходимый для работы моделей на устройствах, сохраняя при этом высокое качество генерации. В отличие от традиционной посттренировочной квантизации (PTQ), QAT интегрируется непосредственно в процесс обучения, что минимизирует потери производительности и ускоряет обработку данных.
Dzen feed: /feed/dzen.xml · RSS: /feed.xml