V-Help
← Все новости
Искусственный интеллект

Apple преодолела ограничение памяти для AI-агентов на устройствах

Apple преодолела ограничение памяти для AI-агентов на устройствах

Фото: images.ctfassets.net

Краткий ответ

Apple представила архитектуру AFM 3, позволяющую запускать AI-модели с 20 млрд параметров на устройствах за счёт хранения весов в NAND-флеш вместо DRAM.

Apple представила прорывное решение для AI на устройствах, преодолев ключевое ограничение — нехватку оперативной памяти. На конференции WWDC26 компания анонсировала семейство моделей AFM 3, разработанное совместно с Google. В линейку входят две локальные модели и три облачные, все работающие в рамках инфраструктуры Private Cloud Compute. Особое внимание привлекает AFM 3 Core Advanced — модель с 20 млрд параметров, которая хранит веса в NAND-флеш вместо DRAM.

Традиционные подходы требовали размещения всей модели в оперативной памяти, что ограничивало размеры моделей на устройствах. Apple предложила принципиально иную архитектуру: веса хранятся в флеш-памяти, а в DRAM загружаются только те части модели, которые необходимы для обработки конкретного запроса. Это стало возможным благодаря механизму Instruction-Following Pruning (IFP), который определяет нужные эксперты на этапе получения запроса, а не для каждого токена отдельно.

Новая архитектура позволяет динамически масштабировать количество активных параметров от 1 до 4 млрд в зависимости от сложности задачи. Для простых операций используется минимальный набор, а для сложных — до 4 млрд параметров из общего пула в 20 млрд. Однако Apple пока не раскрыла все детали: в документации отсутствуют данные о энергопотреблении, тепловыделении и условиях автоматического переключения на облачные модели. Эти сведения компания обещает опубликовать в техническом отчёте летом.

Для бизнеса это означает появление новых возможностей для внедрения AI-агентов. Теперь компании могут запускать мощные модели локально, избегая зависимости от облака, что критично для регулируемых отраслей. При этом сложные задачи могут автоматически перенаправляться на облачные модели AFM 3 Cloud Pro, работающие на Nvidia GPU в Google Cloud. Однако отсутствие чётких критериев переключения между локальными и облачными моделями создаёт сложности для организаций, которым необходимо документировать место выполнения инференса.

Частые вопросы

Какую проблему решает новая архитектура Apple AFM 3?
Новая архитектура решает проблему ограниченной оперативной памяти (DRAM) для AI-моделей на устройствах. Ранее большие модели невозможно было разместить в DRAM, что ограничивало их мощность. Теперь веса хранятся в NAND-флеш, а в DRAM загружаются только необходимые части модели.
Как работает механизм маршрутизации в AFM 3 Core Advanced?
В AFM 3 Core Advanced маршрутизация происходит один раз на запрос, а не на каждый токен. Модель определяет, какие эксперты (части модели) нужны для обработки запроса, загружает их в DRAM и использует для генерации всех токенов. Это снижает нагрузку на память и ускоряет работу.
Какие преимущества даёт AFM 3 для бизнеса?
Предприятия получают возможность запускать мощные AI-агенты локально без зависимости от облака. Это особенно важно для регулируемых отраслей, где требуется контроль над данными. Также архитектура позволяет выбирать между локальными и облачными моделями в зависимости от сложности задачи.
Поделиться:

Лента для Дзен: /feed/dzen.xml · RSS: /feed.xml

Почему этому можно верить

Материал подготовлен редакцией V-Help на основе первоисточника с указанием даты публикации.

Публикация: Новостной отдел V-Help.ru

Источник материала: VentureBeat