Квантование моделей Gemma 3: Теперь новейшие разработки Google доступны на любом устройстве

Опубликовано: 21 апреля, 2025

Метод обучения с учётом квантования предоставляет возможность запускать современные модели Google на локальных графических процессорах и даже на мобильных устройствах.

Используя такой специализированный подход, новые версии Gemma 3 теперь могут эффективно функционировать на потребительском оборудовании, например, на игровых графических процессорах или мобильных устройствах, без значительного снижения качества. В отличие от оригинальных моделей Gemma 3, которые проектировались для мощных систем с NVIDIA H100 и точностью BFloat16, что ограничивало их доступность для обычных пользователей.

Ключевым элементом этого прогресса стало квантование — процесс, позволяющий значительно экономить память. Обе модели и их контрольные точки сейчас доступны на Hugging Face и Kaggle.

Квантование заключается в использовании меньшего количества бит для хранения весов и значений активации — часто 8, 4 или даже 2 бита, вместо привычных 16 или 32. Это ведет к созданию более компактных моделей, которые обрабатываются быстрее благодаря меньшей вычислительной нагрузке на числа с пониженной точностью.

В Gemma 3 Google применяет метод обучения с учётом квантования (QAT), который вводит ограничения по точности в процессе обучения. Моделируя низкую разрядность с самого начала, модель учится адаптироваться к этим условиям, минимизируя стандартное снижение производительности при работе с пониженной точностью.

Экономия памяти оказывается значительной: модель 27B сокращает требования к видеопамяти с 54 ГБ до 14,1 ГБ в формате int4, а 12B — с 24 ГБ до 6,6 ГБ. Даже компактные модели выигрывают: версия 4B занимает 2,6 ГБ, а 1B требует всего 0,5 ГБ.

По утверждениям Google, модели сохраняют «устойчивость к квантованию» благодаря QAT, что обычно связано с потерей качества. Однако компания не представила обновлённые результаты тестов, подтверждающих данное утверждение.

Модели совместимы с распространёнными системами логического вывода для интеграции в существующие рабочие процессы. Встроенная поддержка доступна для Ollama, LM Studio и MLX (для Apple Silicon) и других. Инструменты, такие как llama.cpp и gemma.cpp, также поддерживают квантованные модели Gemma в формате GGUF.

Источник