Вы когда-нибудь задумывались, насколько быстро становятся эффективнее алгоритмы, которые «запускают» ИИ? Новое исследование от команды MIT Futuretech показывает: каждый год мы получаем в 3–10 раз более экономичные системы—то есть цена работы ИИ падает почти как по закону Мура, но в масштабах месяцев.
Почему это важно?
Инференс—процесс, когда модель отвечает на ваши запросы—часто остаётся в тени громких новостей о тренировке ИИ. Зато именно он определяет, насколько быстро и дёшево мы сможем запускать чат-боты, переводчики и другие сервисы на базе нейросетей.
Методика без лишнего шума
Авторы отбросили маркетинговые наценки и смотрели на цены самых дешёвых открытых моделей. Сравнивали стоимость запуска одного «запроса» (3 входных токена к одному выходному). Важно: все данные взяты на современном оборудовании—чтобы увидеть реальный прогресс алгоритмов, а не «качество дата-центров».
Что показало исследование?
• По «жирному» методу (с группировкой по качеству) — скачок эффективности в 7–28 раз в год, в среднем ≈12×. • По «тонкому» методу (регрессия с поправкой на качество) — более скромно: около 3–4× в год. • Интересный нюанс: входные токены дешевеют почти вдвое быстрее, чем выходные—это важно для задач, где ответы «весомее» запросов.
Как это работает внутри?
Причины двух видов. Во‑первых, сами сети стали «худеть»—уменьшилось число активных параметров (дистилляция, спарсити, новые архитектуры). Во‑вторых, оптимизации на уровне работы с данными (кеширование, предсказательный выбор, групповые запросы) снижали затраты на каждый токен.
Что дальше?
Тренды всё ещё бодрые, но кое-где уже заметна усталость роста: кривые «все модели» и «открытые» начали сходиться. Похоже, классические приёмы—дистилляция, квантизация, Mixture of Experts—дают всё меньше отдачи. Может, на смену придут новые схемы: не‑трансформеры, параллельные генераторы или гибриды.
Так или иначе, даже консервативная оценка в 3× в год означает: в течение пары лет запуск «убийцы GPT» станет в десятки раз дешевле. Интересно, увидим ли мы «новую Муру» для ИИ?
