Google优化Gemma 4模型以适应内存受限设备

简要回答
Компания Google выпустила обновлённые версии своих открытых моделей Gemma 4, оптимизированные с помощью технологии quantization-aware training (QAT). Этот подход позволяет значительно сократить объём памяти, необходимый для работы моделей на устройствах, сохраняя при этом высокое качество генерации. В отличие от традиционной посттренировочной квантизации (PTQ), QAT интегрируется непосредственно в процесс обучения, что минимизирует потери производительности и ускоряет обработку данных.
Google宣布推出支持量化感知训练(QAT)的Gemma 4系列模型新版本。该技术能够减小模型体积并降低对内存的需求,这对于在移动设备和笔记本电脑上运行至关重要。与标准的训练后量化(PTQ)方法不同,QAT在训练阶段即被应用,从而在压缩后仍能保持模型质量。
支持QAT的Gemma 4模型提供五种版本:Gemma 4 E2B、E4B、12B、26B A4B和31B。最小的Gemma 4 E2B版本仅需不到1GB内存,适合在智能手机上运行。Google还推出了专门的移动端量化方案,包括对模型部分组件的2位压缩及词汇表优化,进一步降低了系统负载。
新模型支持多种格式:非量化QAT检查点、GGUF格式、移动设备优化版本及压缩张量。据Google称,这些模型在质量上与全尺寸bfloat16版本相当,但所需资源大幅减少。用户可通过Hugging Face平台或LM Studio在PC及移动设备上本地下载使用。
常见问题
- 常见问题
- Компания Google выпустила обновлённые версии своих открытых моделей Gemma 4, оптимизированные с помощью технологии quantization-aware training (QAT). Этот подход позволяет значительно сократить объём памяти, необходимый для работы моделей на устройствах, сохраняя при этом высокое качество генерации. В отличие от традиционной посттренировочной квантизации (PTQ), QAT интегрируется непосредственно в процесс обучения, что минимизирует потери производительности и ускоряет обработку данных.
Dzen 订阅: /feed/dzen.xml · RSS: /feed.xml