Apple преодолела ограничение памяти для AI-агентов на устройствах

Фото: images.ctfassets.net
Краткий ответ
Apple представила архитектуру AFM 3, позволяющую запускать AI-модели с 20 млрд параметров на устройствах за счёт хранения весов в NAND-флеш вместо DRAM.
Apple представила прорывное решение для AI на устройствах, преодолев ключевое ограничение — нехватку оперативной памяти. На конференции WWDC26 компания анонсировала семейство моделей AFM 3, разработанное совместно с Google. В линейку входят две локальные модели и три облачные, все работающие в рамках инфраструктуры Private Cloud Compute. Особое внимание привлекает AFM 3 Core Advanced — модель с 20 млрд параметров, которая хранит веса в NAND-флеш вместо DRAM.
Традиционные подходы требовали размещения всей модели в оперативной памяти, что ограничивало размеры моделей на устройствах. Apple предложила принципиально иную архитектуру: веса хранятся в флеш-памяти, а в DRAM загружаются только те части модели, которые необходимы для обработки конкретного запроса. Это стало возможным благодаря механизму Instruction-Following Pruning (IFP), который определяет нужные эксперты на этапе получения запроса, а не для каждого токена отдельно.
Новая архитектура позволяет динамически масштабировать количество активных параметров от 1 до 4 млрд в зависимости от сложности задачи. Для простых операций используется минимальный набор, а для сложных — до 4 млрд параметров из общего пула в 20 млрд. Однако Apple пока не раскрыла все детали: в документации отсутствуют данные о энергопотреблении, тепловыделении и условиях автоматического переключения на облачные модели. Эти сведения компания обещает опубликовать в техническом отчёте летом.
Для бизнеса это означает появление новых возможностей для внедрения AI-агентов. Теперь компании могут запускать мощные модели локально, избегая зависимости от облака, что критично для регулируемых отраслей. При этом сложные задачи могут автоматически перенаправляться на облачные модели AFM 3 Cloud Pro, работающие на Nvidia GPU в Google Cloud. Однако отсутствие чётких критериев переключения между локальными и облачными моделями создаёт сложности для организаций, которым необходимо документировать место выполнения инференса.
Частые вопросы
- Какую проблему решает новая архитектура Apple AFM 3?
- Новая архитектура решает проблему ограниченной оперативной памяти (DRAM) для AI-моделей на устройствах. Ранее большие модели невозможно было разместить в DRAM, что ограничивало их мощность. Теперь веса хранятся в NAND-флеш, а в DRAM загружаются только необходимые части модели.
- Как работает механизм маршрутизации в AFM 3 Core Advanced?
- В AFM 3 Core Advanced маршрутизация происходит один раз на запрос, а не на каждый токен. Модель определяет, какие эксперты (части модели) нужны для обработки запроса, загружает их в DRAM и использует для генерации всех токенов. Это снижает нагрузку на память и ускоряет работу.
- Какие преимущества даёт AFM 3 для бизнеса?
- Предприятия получают возможность запускать мощные AI-агенты локально без зависимости от облака. Это особенно важно для регулируемых отраслей, где требуется контроль над данными. Также архитектура позволяет выбирать между локальными и облачными моделями в зависимости от сложности задачи.
Лента для Дзен: /feed/dzen.xml · RSS: /feed.xml