За пределами «больше данных, больше вычислений»
Как вы думаете, почему после головокружительного рывка в 2020–2023 годах прирост производительности ИИ начал замедляться? Оказалось, что привычные законы масштабирования — больше параметров, больше данных, больше вычислительной мощности — уже не дают прежнего эффекта.
Всё началось с работы OpenAI 2020 года «Законы масштабирования для языковых моделей», которая показала: рост числа параметров влечёт за собой стабильный прирост точности. А в 2022 году DeepMind добавили в эту формулу критичный элемент — данные. Их модель Chinchilla, вдвое меньшая по размеру, чем GPT‑3, но обученная на вчетверо большем объёме данных, обошла старшего коллегу.
«До недавнего времени казалось: продолжаешь наращивать параметры, данные и мощность — и всё работает», — вспоминает Гарри Тэн из Y Combinator. Но если в конкурсе знаний MMLU GPT‑3 набирал 43,9 %, а GPT‑4 — уже 86,4 %, то в 2024 году отметка застыла на уровне 90 %. Прорывов всё меньше.
Что приходит на смену «грубой силе»?
Честно говоря, ответ впечатляет: вместо наращивания мощи разработчики переходят к продуманным приемам. OpenAI уже представила модели o1 и o3, где вместо «нажимай мощнее» используется метод «цепочек рассуждений» — chain of thought. Модель как будто обдумывает каждую ступень ответа, и это реально повышает точность.
По словам Тэна, o3 буквально «смывает» прежние рекорды. А главная скорость смены лидеров в США сейчас составляет около трёх недель — лидирующие ИИ-модели практически мигрируют, особенно когда открытые проекты подкидывают свежие реализации.
В итоге старые законы масштабирования ещё «дышат», но уже готовится новая эра: умные архитектуры, рассуждающие модели и распределённые источники данных станут главным двигателем прогресса.

