Новый метод сжатия контекста для LLM сокращает входные данные в 16 раз без потери точности

Фото: images.ctfassets.net
Краткий ответ
Исследователи представили метод Latent Context Language Models (LCLM), который сжимает входные данные для LLM в 16 раз, ускоряя обработку в 8,8 раза на бенчмарке RULER без значительной потери точности.
Исследовательская группа из Нью-Йоркского университета, Колумбийского университета, Принстона, Университета Мэриленда, Гарварда и Ливерморской национальной лаборатории представила новый метод сжатия контекста для больших языковых моделей (LLM). Технология, получившая название Latent Context Language Models (LCLM), позволяет сократить объём входных данных в 16 раз, сохраняя при этом высокую точность работы моделей. Это решает одну из ключевых проблем современных LLM — рост вычислительных затрат при увеличении длины контекста.
В отличие от традиционных методов сжатия KV-кэша, которые требуют полной загрузки данных перед сжатием, LCLM сжимают входные токены до их обработки декодером. Это позволяет напрямую снизить нагрузку на память и вычислительные ресурсы. На бенчмарке RULER модель с 16-кратным сжатием продемонстрировала ускорение обработки в 8,8 раза по сравнению с базовыми методами. При этом точность снизилась незначительно: с 94,41% без сжатия до 75,06% при удалении 93,75% входных токенов.
Архитектура LCLM включает энкодер объёмом 0,6 млрд параметров и декодер на 4 млрд параметров. Энкодер преобразует блоки входных токенов в более короткие последовательности латентных эмбеддингов, которые затем обрабатываются декодером. Обучение модели проводилось на более чем 350 млрд токенов с использованием трёх типов данных: непрерывного предобучения, данных для тонкой настройки и вспомогательной задачи реконструкции. Это позволило сохранить баланс между точностью восстановления данных и общей производительностью модели.
Разработчики подчёркивают, что LCLM легко интегрируются в существующие стеки и могут использоваться как замена стандартным LLM. Для этого достаточно пропустить входные данные через компрессор модели перед их обработкой. Однако для полноценной работы в агентных системах потребуется настройка RAG-конвейеров и тестирование поведения модели в условиях реальных нагрузок. Исходный код и модели доступны на платформе HuggingFace и GitHub.
Для предприятий, использующих LLM, новый метод открывает возможности для значительного снижения затрат на инференс. При работе с контекстами длиной в 1 млн токенов традиционные методы сжатия KV-кэша требуют ресурсов, превышающих возможности одного GPU H200. LCLM же сохраняют работоспособность даже при таких объёмах данных, что делает их перспективным решением для масштабирования инфраструктуры.
Частые вопросы
- Что такое Latent Context Language Models (LCLM)?
- LCLM — это семейство моделей сжатия контекста для больших языковых моделей, которые сокращают объём входных данных перед их обработкой декодером. Это позволяет снизить нагрузку на память и вычислительные ресурсы без значительной потери точности.
- Какие преимущества даёт сжатие контекста в 16 раз?
- При 16-кратном сжатии LCLM ускоряет обработку данных в 8,8 раза по сравнению с традиционными методами сжатия KV-кэша. Это снижает затраты на вычисления и позволяет работать с более длинными контекстами без потери производительности.
- Можно ли интегрировать LCLM в существующие системы?
- Да, LCLM спроектированы для лёгкой интеграции в существующие стеки. Их можно использовать как замену стандартным LLM, предварительно пропуская данные через компрессор модели.
Лента для Дзен: /feed/dzen.xml · RSS: /feed.xml