
До 2028 року на ринку можуть з'явитися ІІ-системи, здатні самостійно розробляти та навчати власних наступників без участі людини. Такий прогноз дав співзасновник компанії Anthropic Джек Кларк.
“Це дуже важливо. Я не знаю, як зрозуміти це. Я приходжу до цього висновку з небажанням, тому що наслідки настільки великі, що я відчуваю себе пригніченим ними, і я не впевнений, що суспільство готове до тих змін, які передбачає автоматизована ІІ-розробка», – зазначив він.
Кларк описав сценарій повної автоматизації ІІ-досліджень – модель самостійно:
- ставить дослідницькі завдання;
- проектує експерименти;
- пише та тестує код;
- оптимізує навчання;
- покращує архітектуру наступної версії ІІ.
Експерт назвав це «рубіконом у майже непередбачуване майбутнє» та оцінив ймовірність такого сценарію у 60% у найближчі два роки.
Висновок Кларка будується на динаміці кількох бенчмарків:
- SWE-Bench – тест на вирішення реальних інженерних завдань з репозиторію GitHub. В кінці 2023 кращі моделі справлялися приблизно з 2% кейсів; до весни 2026 року показник досяг 94%;
- CORE-Bench — відтворення результатів наукових ІІ-статей із встановленням оточення, запуском коду та аналізом висновків. За словами Кларка, бенчмарк фактично “закритий”: сучасні агенти показують близько 95,5%;
- MLE-Bench – виконання ML-завдань рівня Kaggle. Найкращі агентні системи вже досягають 64-65%.
За словами співзасновника Antropic, усі три метрики демонструють одне: ІІ швидко переходить від точкового написання коду до повноцінного виконання інженерних та дослідницьких завдань.
Ще один аргумент – збільшення тривалості завдань, які ІІ-моделі здатні виконувати без втручання людини.
За даними METR, у 2022 році системи справлялися із завданнями, які займали у людини десятки секунд. 2024 року показник зріс приблизно до 40 хвилин, 2025 року — до шостої години. Нині передові моделі здатні вести інженерну роботу близько 12 годин поспіль.
Кларк пов'язав це із поширенням агентних інструментів для програмування. Чим довше модель утримує ціль, перевіряє проміжні результати та виправляє помилки, тим більше етапів дослідницького циклу можна їй делегувати.
Сучасний цикл розробки ІІ влаштований за однією схемою: вивчити матеріали, відтворити результат, зібрати експеримент, навчити чи донавчити модель, перевірити метрики, знайти вузькі місця та повторити. Зростання на SWE-Bench, CORE-Bench та MLE-Bench показує, що моделі вже справляються з цілими фрагментами такого циклу.
Кларк окремо вказав на прогрес у спеціалізованих завданнях. Наприклад, ІІ починають застосовувати для дизайну GPU-ядер – коду, який визначає ефективність навчання та інференсу моделей на конкретному залізі.
Ще один напрямок – донавчання моделей. У бенчмарку PostTrainBench ІІ-системи покращують невеликі LLM із відкритим вихідним кодом.
Станом на весну 2026 року найкращі нейромережі досягають 25-28% від цільового приросту (у людських команд – 51%). Кларк вважає результат значним: орієнтир задають реальні інструктивні моделі, створені досвідченими дослідниками.
Anthropic заміряла, як її моделі оптимізують навчання LLM на CPU. За рік прискорення зросло з 2,9 разів (Claude Opus 4) до 52 (Claude Mythos Preview). Людині на аналогічне завдання зазвичай потрібно чотири-вісім годин.
Кларк зазначив, що сучасні системи починають координувати роботу інших агентів. Такий підхід вже використовується в продуктах на кшталт Claude Code або OpenCode: один помічник розподіляє завдання між кількома подасистентами, контролює їх і збирає результати.
Для ІІ-розробок це важливо: вони рідко являють собою одну лінійну задачу – зазвичай це десятки паралельних процесів, включаючи написання коду та настроювання оточення. Якщо модель почне керувати такими контурами самостійно, ступінь людської участі різко скоротиться.
На думку співзасновника Anthropic, одне з ключових питань – на що більше схожа розробка ІІ: відкриття загальної теорії відносності або на складання Lego.
Кларк визнав, що сучасні LLM поки що не здатні генерувати принципово нові наукові ідеї. Однак для автоматизації значної частини AI R&D це може бути необов'язково.
«Здебільшого ІІ рухається вперед через методичне виконання людьми деякого циклу: взяти систему, що добре працює, масштабувати якийсь її аспект, подивитися на помилки при масштабуванні та виправити їх. Для цього потрібно дуже мало нестандартних ідей, і більшість подібного процесу схожа на непривабливу чорнову інженерну роботу», — зазначив експерт.
Кларк вважає, що у ІІ-моделей вже починають з'являтися ранні ознаки наукової інтуїції. Він навів кілька прикладів з математики та інформатики:
- команда математиків за допомогою Gemini перевірила близько 700 завдань Ердеша та отримала 13 рішень, одне з яких дослідники назвали «злегка нетривіальним» внеском у відкриту проблему;
- вчені з Університету Британської Колумбії, Університету Нового Південного Уельсу, Стенфорда та Google DeepMind опублікували математичний доказ, знайдений за значної участі інструментів на базі Gemini.
Кларк звернув увагу, що найбільші ІІ-лабораторії вже рухаються у бік автоматизації досліджень. OpenAI має намір створити ІІ-стажера для самостійної наукової діяльності, Anthropic випускає роботи з автоматичного налаштування під людські цінності.
Якщо поточний темп збережеться, індустрія перейде до фази повної автоматизації ІІ-розробок, спрогнозував експерт — запуститься цикл, коли кожне нове покоління ІІ прискорює появу наступного.
За його словами, якщо до кінця 2028 року перехід відбудеться, світ зіткнеться не лише з технологічним стрибком. На перший план також вийдуть фундаментальні питання безпеки, розподілу капіталу, ролі людської праці та контролю над системами, які починають розвиватися швидше за своїх творців.
«Якби ви змусили мене назвати ймовірність для 2027 року, я сказав би 30%. Якщо ми не побачимо цього до кінця 2028 року, то, гадаю, ми виявимо якийсь недолік у поточній технологічній парадигмі, і для руху вперед буде потрібний людський винахід», — сказав Кларк.
У січні гендиректор Anthropic Даріо Амодеї передбачив швидку появу AGI та скорочення робочих місць.
