DeepSeek V4-Pro обходить Claude і GPT, ставши найкращою відкритою моделлю

Китайський ІІ-стартап DeepSeek опублікував прев'ю нової лінійки мовних моделей. Флагманська V4-Pro обійшла Claude Opus 4.6 та GPT-5.4, ставши найкращою відкритою системою.

V4-Pro налічує близько 1600000000000 параметрів, але на кожному кроці використовує тільки 49 млрд. У другій версії – V4-Flash – загальний масштаб становить 284 млрд, з яких активуються 13 млрд.

Обидві моделі побудовані на архітектурі «суміші експертів» (Mixture of Experts, MoE): при обробці кожного токена включається лише частина підмереж, яка релевантна задачі. Такий підхід дешевший за повністю щільні архітектури, але не поступається їм у продуктивності.

Передбачення проходило на корпусі об'ємом понад 32 трлн токенів. Потім розробники донавчили моделі поетапно, виділивши окремі блоки для кодингу, математики, логіки та дотримання інструкцій. Фінальна версія зводить ці навички докупи за допомогою дистиляції.

Ключовою відмінністю V4 стала оптимізація обробки довгих послідовностей. Контекстне вікно в 1 млн. токенів є і в інших моделей, але його використання зазвичай пов'язане з високою вартістю та затримками.

У DeepSeek заявили, що нова версія помітно знизила ресурсомісткість таких операцій. Порівняно з V3.2, V4-Pro вимагає близько 27% обчислень та 10% пам'яті KV-кешу під час роботи з максимальним контекстом. Для V4-Flash показники становлять приблизно 10% та 7% відповідно.

Джерело: Hugging Face.

Команда досягла результату завдяки гібридній архітектурі уваги: два механізми стискають дані та знижують навантаження під час роботи з довгими текстами. Також використовувалися спеціальні гіперзв'язки для стабільності та оптимізатор Muon для прискорення навчання.

DeepSeek V4 підтримує три режими міркувань:

  • Non-think – Швидкі відповіді на прості питання без додаткового аналізу.
  • Think High – глибокий аналіз для складних завдань та планування.
  • Think Max – максимальний режим: модель прописує кожен крок та перевіряє всі варіанти.
  • В агентних задачах режим Max тепер зберігає ланцюжок проміжних кроків усередині одного завдання. У попередній версії частина такого контексту губилася під час взаємодії з користувачем.

    За даними DeepSeek, флагманська версія демонструє результати, які можна порівняти з провідними системами в ряді напрямків:

    • у задачах із програмування на Codeforces модель досягла рейтингу 3206 – 23 місце серед живих програмістів світу, паритет з GPT-5.4;
    • в математиці показала 95,2 на HMMT 2026 та 89,8 на IMOAnswerBench, випередивши більшість конкурентів;
    • у знаннях SimpleQA Verified – 57,9 (Opus 4.6 – 46,2, але Gemini 3.1 Pro – 75,6).
    • у різонінг моделі відстають від GPT-5.4 і Gemini 3.1 Pro тільки на три-шість місяців;
    • у внутрішньому тесті DeepSeek, що включає завдання розробки, налагодження та рефакторингу, модель досягла 67% – між Sonnet 4.5 (47%) та Opus 4.5 (70%);
    • в агентних сценаріях та завданнях розробки V4-Pro-Max продемонструвала 80,6% на SWE Verified та 67,9% на Terminal Bench.

    Джерело: Hugging Face.

    V4 спеціально тренували на реальних сценаріях: аналіз даних, звіти, редагування документів, пошук інтернету з ітеративним використанням інструментів.

    Для оцінки придатності моделі у реальній розробці стартап провів внутрішнє тестування на завдання своїх інженерів. В опитуванні 85 розробників та дослідників 52% заявили, що готові використовувати V4-Pro як основну модель для кодингу, ще 39% відзначили, що схиляються до такого рішення.

    Нагадаємо, 23 квітня компанія OpenAI випустила GPT-5.5. Модель позиціонується як «новий рівень інтелекту для реальної роботи та управління агентами».

    No votes yet.
    Please wait...

    Залишити відповідь

    Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *