В индустрии AI произошла революция: после успехов в решении задач IMO, именно сейчас появляется агент, способный вести полноценные исследования. Google DeepMind представила Aletheia — AI, который не только решает сложные математические задачи, но и самостоятельно пишет научные статьи, ищет литературу и проверяет свои выводы.
Эта система основывается на архитектуре «Агентного цикла», которая включает три компонента: генератор решений, проверяльщик ошибок и редактор, исправляющий найденные ошибки. Такой подход позволяет AI «думать» дольше и точнее, что значительно повышает его результаты. Например, на тесте IMO-Proof Bench он достиг 95,1% точности — это рекорд, превосходящий предыдущие достижения.
Особенность Aletheia — использование реальных инструментов, таких как Google Search и браузинг, что помогает ей избегать ошибок при цитировании и вдохновляться литературой, как профессиональный ученый. Уже осуществлены milestones: автоматическая генерация научной статьи без помощи человека и решение сотен сложных проблем, включая открытые вопросы теорем Коннектикуса Эрдёша.
DeepMind предложила классификацию уровней автономии AI-проектов — Aletheia относится к уровню «автономные исследования уровня 2», что означает автоматическое ведение научных публикаций. В ближайшие месяцы можно ожидать переход от экспериментов к полноценной деятельности без участия человека, что изменит взгляд на роль AI в науке. Компании, которые научатся эффективно использовать инструменты и проверки, выиграют в будущем, а те, кто останутся в стороне — отстанут.
Фактически, уже сейчас создается новая парадигма: AI не просто помогает, а становится полноценным соавтором и исследователем. Время тестировать, внедрять и осваивать новые стандарты прозрачности и оценки Contributions — вот главный тренд.

