Что такое MiniMax Sparse Attention (MSA) и как он работает?

MSA — это новый механизм разреженного внимания от MiniMax, который оптимизирует вычисления при обработке длинных контекстов. Он устраняет недостатки субквадратичных методов, сохраняя точность полного внимания, но при этом значительно снижая вычислительные затраты.

Насколько быстрее работает модель M3 по сравнению с M2?

По предварительным данным, M3 обеспечивает 9,7-кратное ускорение на этапе предобработки и 15,6-кратное — на этапе генерации ответов при работе с последовательностями до миллиона токенов.

Какие преимущества даёт M3 для ИИ-агентов?

M3 позволяет развёртывать ИИ-агентов с экстремально длинными контекстами, что ранее было ограничено аппаратными ограничениями. Это делает экономически целесообразным использование агентов для работы с объёмными документами и сложными задачами.

Поддерживает ли M3 динамический выбор блоков ключей и значений?

Да, модель M3 поддерживает динамический выбор блоков ключей и значений, что решает проблемы кэширования и повышает общую производительность.

← All news

Artificial intelligence

MiniMax to Unveil M3 with Revolutionary Sparse Attention Mechanism

May 28, 2026

Photo: VentureBeat

Quick answer

MiniMax анонсировала модель M3 с революционным механизмом MiniMax Sparse Attention (MSA), ускоряющим обработку длинных контекстов в 15,6 раза.

Chinese company MiniMax, known for its cutting-edge advancements in artificial intelligence, has announced the new M3 model, marking the next step in the evolution of its language model lineup. The key innovation is the MiniMax Sparse Attention (MSA) mechanism, which significantly accelerates long-context processing without sacrificing accuracy.

Unlike the previous M2 model, which relied on full attention with quadratic complexity, M3 introduces a sparse architecture that optimizes computations. This solution addresses the core drawbacks of subquadratic methods, such as context loss and reduced accuracy in multi-step reasoning. Preliminary data indicates that MSA delivers a 9.7x speedup during preprocessing and a 15.6x boost during response generation for sequences up to a million tokens.

MiniMax developers emphasized that MSA retains the benefits of full attention while avoiding its primary drawback—exponential growth in computational costs. This unlocks new possibilities for deploying AI agents capable of efficiently handling large documents and complex tasks. The M3 model also supports dynamic selection of key and value blocks, resolving caching issues and enhancing overall performance.

Previously, MiniMax demonstrated strong results with its M2 series models, which led benchmarks among open AI solutions. The new M3 architecture could be a significant step toward creating autonomous agents capable of independently solving complex tasks, including developing and optimizing their own code.

Common questions

Что такое MiniMax Sparse Attention (MSA) и как он работает?: MSA — это новый механизм разреженного внимания от MiniMax, который оптимизирует вычисления при обработке длинных контекстов. Он устраняет недостатки субквадратичных методов, сохраняя точность полного внимания, но при этом значительно снижая вычислительные затраты.
Насколько быстрее работает модель M3 по сравнению с M2?: По предварительным данным, M3 обеспечивает 9,7-кратное ускорение на этапе предобработки и 15,6-кратное — на этапе генерации ответов при работе с последовательностями до миллиона токенов.
Какие преимущества даёт M3 для ИИ-агентов?: M3 позволяет развёртывать ИИ-агентов с экстремально длинными контекстами, что ранее было ограничено аппаратными ограничениями. Это делает экономически целесообразным использование агентов для работы с объёмными документами и сложными задачами.
Поддерживает ли M3 динамический выбор блоков ключей и значений?: Да, модель M3 поддерживает динамический выбор блоков ключей и значений, что решает проблемы кэширования и повышает общую производительность.

Dzen feed: /feed/dzen.xml · RSS: /feed.xml