Результаты последних исследований от Google и университета Вирджинии показывают: увеличение длины Chain-of-Thought не обязательно повышает точность моделей. Наоборот, излишняя мыслительная нагрузка — источник ошибок и снижения качества.
Создана метрика Deep-Thinking Ratio (DTR), которая оценивает глубину внутренней обработки токена — именно она оказывается более предсказательной, чем просто длина текста. Анализируют изменения внутри модели (hidden states) через меру Jensen-Shannon Divergence, определяя, насколько долго токен «размышляет» — тех, кто стабилизируется в последних слоях (около 85%), классифицируют как глубокомысленных.
Проблема коротких токенов и заблуждение о длине
Ранее считалось, что длинные цепочки — залог точности. Новые данные говорят обратное: количество токенов часто не связано с качеством. В моделях видно, что глубокое мышление — главный фактор — это тоже подтверждает корреляция (средний коэффициент ~0.683).
Что такое Think@n и как он экономит ресурсы
На основе DTR команда разработала Think@n — стратегию ранней остановки генерации. После 50 токенов система вычисляет DTR для каждого варианта. Низкий DTR — сразу останавливаем, высокий — даём дополнительно прогонять, экономя до 50% на вычислительных ресурсах и сохраняя (или повышая) точность.
Примеры успеха: как повысить точность и снизить затраты
Тестирование на задачах по математике (например, AIME 2025) показывает: при использовании Think@n точность выросла до 94.7% — против 92.7% у стандартных методов. При этом расходы на вычисления сократились почти вдвое (с 307.6 тысяч до 155.4 тысяч токенов).
Индустрия давно поняла: длина токена — не показатель сложности или эффективности. Внутренние процессы и их глубокий анализ становятся краеугольным камнем точности.
Что дальше: тенденции и вызовы
Очевидно, что фокус на глубине обработки показывает более точные результаты и экономит ресурсы. В ближайшие месяцы команд, использующих DTR, станет больше. Вопрос только — как масштабировать этот подход на миллионы данных и модели с сотнями миллиардов параметров?
Пока большинство экспертов соглашается: будущее за изучением внутренних процессов модели, а не за их длиной.
Что нужно делать разработчикам сейчас
Если собираетесь внедрять RAG или подобные системы, начинайте с оценки глубины размышлений токенов. Анализируйте внутренние состояния — это выгодно и точно. Время простых решений прошло: глубокий анализ — вот, где ваши выгоды и качество.

