Искусственный интеллект

Google оптимизировала модели Gemma 4 для работы на устройствах с ограниченной памятью

6 июня 2026 г.

Краткий ответ

Компания Google выпустила обновлённые версии своих открытых моделей Gemma 4, оптимизированные с помощью технологии quantization-aware training (QAT). Этот подход позволяет значительно сократить объём памяти, необходимый для работы моделей на устройствах, сохраняя при этом высокое качество генерации. В отличие от традиционной посттренировочной квантизации (PTQ), QAT интегрируется непосредственно в процесс обучения, что минимизирует потери производительности и ускоряет обработку данных.

Google анонсировала новые версии моделей семейства Gemma 4, которые теперь поддерживают quantization-aware training (QAT). Эта технология позволяет уменьшить размер моделей и снизить требования к оперативной памяти, что критически важно для работы на мобильных устройствах и ноутбуках. В отличие от стандартного подхода посттренировочной квантизации (PTQ), QAT применяется на этапе обучения, что позволяет сохранить качество модели даже после сжатия.

Модели Gemma 4 с QAT доступны в пяти вариантах: Gemma 4 E2B, E4B, 12B, 26B A4B и 31B. Самая компактная версия, Gemma 4 E2B, требует менее 1 ГБ оперативной памяти, что делает её пригодной для запуска на смартфонах. Google также представила специальную схему мобильной квантизации, включающую 2-битное сжатие отдельных компонентов модели и оптимизацию словаря, что дополнительно снижает нагрузку на систему.

Новые модели поддерживают несколько форматов: неквантизированные контрольные точки QAT, формат GGUF, версии для мобильных устройств и Compressed Tensors. По данным Google, такие модели демонстрируют качество, сопоставимое с полноразмерными версиями в формате bfloat16, но при этом требуют значительно меньше ресурсов. Загрузить модели можно на платформе Hugging Face или через LM Studio для локального использования на ПК и мобильных устройствах.

Частые вопросы

Частые вопросы: Компания Google выпустила обновлённые версии своих открытых моделей Gemma 4, оптимизированные с помощью технологии quantization-aware training (QAT). Этот подход позволяет значительно сократить объём памяти, необходимый для работы моделей на устройствах, сохраняя при этом высокое качество генерации. В отличие от традиционной посттренировочной квантизации (PTQ), QAT интегрируется непосредственно в процесс обучения, что минимизирует потери производительности и ускоряет обработку данных.

Лента для Дзен: /feed/dzen.xml · RSS: /feed.xml