V-Help为您的企业提供高端 IT 服务
← 全部新闻
人工智能

Google优化Gemma 4模型以适应内存受限设备

Google优化Gemma 4模型以适应内存受限设备

图片: Android Authority

简要回答

Компания Google выпустила обновлённые версии своих открытых моделей Gemma 4, оптимизированные с помощью технологии quantization-aware training (QAT). Этот подход позволяет значительно сократить объём памяти, необходимый для работы моделей на устройствах, сохраняя при этом высокое качество генерации. В отличие от традиционной посттренировочной квантизации (PTQ), QAT интегрируется непосредственно в процесс обучения, что минимизирует потери производительности и ускоряет обработку данных.

Google宣布推出支持量化感知训练(QAT)的Gemma 4系列模型新版本。该技术能够减小模型体积并降低对内存的需求,这对于在移动设备和笔记本电脑上运行至关重要。与标准的训练后量化(PTQ)方法不同,QAT在训练阶段即被应用,从而在压缩后仍能保持模型质量。

支持QAT的Gemma 4模型提供五种版本:Gemma 4 E2B、E4B、12B、26B A4B和31B。最小的Gemma 4 E2B版本仅需不到1GB内存,适合在智能手机上运行。Google还推出了专门的移动端量化方案,包括对模型部分组件的2位压缩及词汇表优化,进一步降低了系统负载。

新模型支持多种格式:非量化QAT检查点、GGUF格式、移动设备优化版本及压缩张量。据Google称,这些模型在质量上与全尺寸bfloat16版本相当,但所需资源大幅减少。用户可通过Hugging Face平台或LM Studio在PC及移动设备上本地下载使用。

常见问题

常见问题
Компания Google выпустила обновлённые версии своих открытых моделей Gemma 4, оптимизированные с помощью технологии quantization-aware training (QAT). Этот подход позволяет значительно сократить объём памяти, необходимый для работы моделей на устройствах, сохраняя при этом высокое качество генерации. В отличие от традиционной посттренировочной квантизации (PTQ), QAT интегрируется непосредственно в процесс обучения, что минимизирует потери производительности и ускоряет обработку данных.
分享:

Dzen 订阅: /feed/dzen.xml · RSS: /feed.xml

为何可信

本文由 V-Help 编辑部根据一手来源整理,并标注发布日期。

发布: V-Help.ru 新闻编辑部

来源: Android Authority