V-Help为您的企业提供高端 IT 服务
← 全部新闻
人工智能

Новый метод сжатия контекста для LLM сокращает входные данные в 16 раз без потери точности

Новый метод сжатия контекста для LLM сокращает входные данные в 16 раз без потери точности

图片: images.ctfassets.net

简要回答

Исследователи представили метод Latent Context Language Models (LCLM), который сжимает входные данные для LLM в 16 раз, ускоряя обработку в 8,8 раза на бенчмарке RULER без значительной потери точности.

Исследовательская группа из Нью-Йоркского университета, Колумбийского университета, Принстона, Университета Мэриленда, Гарварда и Ливерморской национальной лаборатории представила новый метод сжатия контекста для больших языковых моделей (LLM). Технология, получившая название Latent Context Language Models (LCLM), позволяет сократить объём входных данных в 16 раз, сохраняя при этом высокую точность работы моделей. Это решает одну из ключевых проблем современных LLM — рост вычислительных затрат при увеличении длины контекста.

В отличие от традиционных методов сжатия KV-кэша, которые требуют полной загрузки данных перед сжатием, LCLM сжимают входные токены до их обработки декодером. Это позволяет напрямую снизить нагрузку на память и вычислительные ресурсы. На бенчмарке RULER модель с 16-кратным сжатием продемонстрировала ускорение обработки в 8,8 раза по сравнению с базовыми методами. При этом точность снизилась незначительно: с 94,41% без сжатия до 75,06% при удалении 93,75% входных токенов.

Архитектура LCLM включает энкодер объёмом 0,6 млрд параметров и декодер на 4 млрд параметров. Энкодер преобразует блоки входных токенов в более короткие последовательности латентных эмбеддингов, которые затем обрабатываются декодером. Обучение модели проводилось на более чем 350 млрд токенов с использованием трёх типов данных: непрерывного предобучения, данных для тонкой настройки и вспомогательной задачи реконструкции. Это позволило сохранить баланс между точностью восстановления данных и общей производительностью модели.

Разработчики подчёркивают, что LCLM легко интегрируются в существующие стеки и могут использоваться как замена стандартным LLM. Для этого достаточно пропустить входные данные через компрессор модели перед их обработкой. Однако для полноценной работы в агентных системах потребуется настройка RAG-конвейеров и тестирование поведения модели в условиях реальных нагрузок. Исходный код и модели доступны на платформе HuggingFace и GitHub.

Для предприятий, использующих LLM, новый метод открывает возможности для значительного снижения затрат на инференс. При работе с контекстами длиной в 1 млн токенов традиционные методы сжатия KV-кэша требуют ресурсов, превышающих возможности одного GPU H200. LCLM же сохраняют работоспособность даже при таких объёмах данных, что делает их перспективным решением для масштабирования инфраструктуры.

常见问题

Что такое Latent Context Language Models (LCLM)?
LCLM — это семейство моделей сжатия контекста для больших языковых моделей, которые сокращают объём входных данных перед их обработкой декодером. Это позволяет снизить нагрузку на память и вычислительные ресурсы без значительной потери точности.
Какие преимущества даёт сжатие контекста в 16 раз?
При 16-кратном сжатии LCLM ускоряет обработку данных в 8,8 раза по сравнению с традиционными методами сжатия KV-кэша. Это снижает затраты на вычисления и позволяет работать с более длинными контекстами без потери производительности.
Можно ли интегрировать LCLM в существующие системы?
Да, LCLM спроектированы для лёгкой интеграции в существующие стеки. Их можно использовать как замену стандартным LLM, предварительно пропуская данные через компрессор модели.
分享:

Dzen 订阅: /feed/dzen.xml · RSS: /feed.xml

为何可信

本文由 V-Help 编辑部根据一手来源整理,并标注发布日期。

发布: V-Help.ru 新闻编辑部

来源: VentureBeat