Искусственный интеллектНовый бенчмарк DeepSWE развенчивает мифы о лидерстве AI-кодинга и выявляет слабые места Claude
Стартап Datacurve представил бенчмарк DeepSWE, который радикально перераспределил позиции в рейтинге AI-моделей для программирования. В отличие от традиционных тестов, DeepSWE выявил значительные расхождения в оценках, а также ошибки в верификаторах популярного бенчмарка SWE-Bench Pro. GPT-5.5 уверенно занял первое место, в то время как Claude Opus продемонстрировал неожиданные слабости.
Читать далее









