В мире многопользовательского обучения с усилением прогресс движется не так быстро, как хотелось бы. Традиционно исследователи сами мучительно улучшали алгоритмы, экспериментируя вручную с кодом. Но команда Google DeepMind решила сломать эту схему и предложила подход с использованием эволюции и языковых моделей, назвав его AlphaEvolve.
AlphaEvolve — это система, которая рассматривает исходный код как геном, позволяя LLM автоматом переписывать и улучшать алгоритмы. Этот подход называется семантическая эволюция: вместо ручных настроек она пересобирает логику кода, внедряет новые управляющие конструкции и символические операции, руководствуясь умной генетической операцией Gemini 2.5.
Обновление происходит по циклу: старт с базовых алгоритмов, выбор лучших по показателям «фитнеса», LLM переписывает код, а затем новые версии проверяются на простых симуляциях типа Kuhn Poker, чтобы оценить их эффективность. И так — по спирали инноваций.
Итоговые разработки — VAD-CFR и SHOR-PSRO. Первый — адаптивный расчет дисконта, который меняется в зависимости от рывков в «разбитости» стратегии, правда, с необычной задержкой, которая задается без стоп-клипа. Landmark — он использует экспоненциальное скольжение для оценки волатильности, регулируя тем самым внимание к истории стратегии. В тестах VAD-CFR показывает результаты лучше или равные лучшим современным алгоритмам на таких играх, как Ледук Покер и Льстящий Прикол, кроме классического Kuhn Poker.
Второй — SHOR-PSRO — механизм гибридной стратегии, сочетающий ангулярную регрет-матчинг и мягкое оптимистичное объединение стратегий с динамическим управлением параметрами. Это позволяет алгоритму быстрее сходиться и получать более стабильные результаты.
Такая система — показатель будущего: с помощью автоматической эволюции кода и семантического переписывания команда DeepMind открыла дверь к новым способам поиска эффективных решений. В ближайших планах — нейросетевое обучение алгоритмов, автоматизация экспериментов и, вероятно, появление более сложных многопользовательских стратегий без участия человека. В этой гонке выигрывают те, кто умеет перестраивать свой код, который сам себе придумывает лучшие идеи.
