MiniMax 发布 M3:革命性稀疏注意力机制加速 AI 性能

图片: VentureBeat
简要回答
MiniMax анонсировала модель M3 с революционным механизмом MiniMax Sparse Attention (MSA), ускоряющим обработку длинных контекстов в 15,6 раза.
以人工智能前沿技术闻名的中国公司MiniMax宣布推出新一代M3模型,标志着其语言模型系列的又一次进化。核心创新是MiniMax稀疏注意力(MSA)机制,能够在不损失准确性的前提下显著加速长上下文处理。
与之前采用二次复杂度全注意力机制的M2模型不同,M3引入了稀疏架构,优化了计算过程。该方案解决了亚二次方法的关键缺陷,如上下文丢失和多步推理准确性下降。初步数据显示,MSA在预处理阶段实现9.7倍加速,在响应生成阶段实现15.6倍加速,适用于百万级Token序列。
MiniMax开发者强调,MSA保留了全注意力的优势,同时避免了其主要缺点——计算成本的指数级增长。这为部署能够高效处理大型文档和复杂任务的AI代理开辟了新的可能性。M3模型还支持动态选择键值块,解决了缓存问题并提升了整体性能。
此前,MiniMax的M2系列模型在开源AI解决方案基准测试中表现领先。新的M3架构有望成为实现自主代理的重要一步,使其能够独立解决复杂任务,包括开发和优化自身代码。
常见问题
- Что такое MiniMax Sparse Attention (MSA) и как он работает?
- MSA — это новый механизм разреженного внимания от MiniMax, который оптимизирует вычисления при обработке длинных контекстов. Он устраняет недостатки субквадратичных методов, сохраняя точность полного внимания, но при этом значительно снижая вычислительные затраты.
- Насколько быстрее работает модель M3 по сравнению с M2?
- По предварительным данным, M3 обеспечивает 9,7-кратное ускорение на этапе предобработки и 15,6-кратное — на этапе генерации ответов при работе с последовательностями до миллиона токенов.
- Какие преимущества даёт M3 для ИИ-агентов?
- M3 позволяет развёртывать ИИ-агентов с экстремально длинными контекстами, что ранее было ограничено аппаратными ограничениями. Это делает экономически целесообразным использование агентов для работы с объёмными документами и сложными задачами.
- Поддерживает ли M3 динамический выбор блоков ключей и значений?
- Да, модель M3 поддерживает динамический выбор блоков ключей и значений, что решает проблемы кэширования и повышает общую производительность.
分享:
Dzen 订阅: /feed/dzen.xml · RSS: /feed.xml