V-HelpPremium IT service for your business
← All news
Artificial intelligence

Moonshot AI представила Kimi K2.7-Code: снижение токенов на 30%, но вопросы к бенчмаркам

Moonshot AI представила Kimi K2.7-Code: снижение токенов на 30%, но вопросы к бенчмаркам

Photo: images.ctfassets.net

Quick answer

Moonshot AI выпустила модель Kimi K2.7-Code с заявленным снижением расхода токенов на 30% и улучшением производительности, но независимые тесты показывают противоречивые результаты.

Китайская компания Moonshot AI представила обновлённую версию своей модели для генерации кода — Kimi K2.7-Code. Разработчики утверждают, что новая модель сокращает расход «мыслительных» токенов на 30% по сравнению с предшественником K2.6, что должно снизить затраты на инференс в агентных рабочих процессах. Модель построена на той же архитектуре смеси экспертов с триллионом параметров и доступна под лицензией Modified MIT, а её веса выложены на HuggingFace.

K2.7-Code отличается от предыдущей версии подходом к генерации кода: если K2.6 использовал обёртки над существующими библиотеками, то новая модель пишет реализации напрямую. По словам Moonshot AI, это улучшает обобщение на языках Rust, Go и Python, а также повышает эффективность в задачах фронтенд-разработки, DevOps и оптимизации производительности. Однако модель работает только в режиме «мышления» с фиксированной температурой 1.0, что исключает возможность настройки детерминированности вывода.

На собственных бенчмарках Moonshot AI модель показывает прирост производительности: 21,8% на Kimi Code Bench v2, 11% на Program Bench и 31,5% на MLS Bench Lite. Однако независимые исследователи уже усомнились в объективности этих результатов. Например, разработчик Эллиот Арледж провёл тестирование на KernelBench-Hard и обнаружил, что K2.7-Code генерирует более «честный» код, но не всегда корректный: два из шести ядер Triton завершились с ошибками, а один из результатов оказался хуже, чем у K2.6.

Эксперты подчёркивают, что для объективной оценки модели необходимы независимые тесты, такие как DeepSWE, который даёт более широкий разброс результатов между моделями. Разработчик Сугумаран Баласубраманиан, создавший маршрутизатор задач для платформы Hermes Agent, отметил, что K2.6 на DeepSWE показал результат 24%, сравнимый с GPT-5.4-mini, и призвал Moonshot AI предоставить данные по K2.7-Code на этом бенчмарке.

Для предприятий обновление может быть полезным: интеграция через OpenAI-совместимый API позволяет быстро заменить K2.6 на K2.7-Code без изменений в инфраструктуре. Однако перед масштабным внедрением рекомендуется протестировать модель на собственных задачах, чтобы оценить реальное снижение затрат и производительность.

Common questions

Что такое Kimi K2.7-Code?
Это обновлённая открытая модель для генерации кода от Moonshot AI, оптимизированная для снижения расхода токенов и улучшения производительности. Поддерживает языки Rust, Go и Python, но не позволяет настраивать детерминированность вывода.
Почему вызывают сомнения бенчмарки Kimi K2.7-Code?
Moonshot AI использует собственные тесты, на которых модель показывает значительный прирост. Однако независимые исследователи отмечают, что на сторонних бенчмарках результаты скромнее, а в некоторых случаях даже хуже, чем у предшественника K2.6.
Как интегрировать Kimi K2.7-Code в рабочие процессы?
Модель совместима с OpenAI API и поддерживает развёртывание через vLLM или SGLang. Команды, уже использующие K2.6, могут заменить её без изменений в инфраструктуре, но рекомендуется протестировать на собственных задачах.
Share:

Dzen feed: /feed/dzen.xml · RSS: /feed.xml

Why trust this

Prepared by the V-Help editorial team from the primary source with a published date.

Published by: V-Help.ru news desk

Source: VentureBeat