Как Deep-Thinking Ratio меняет точность и стоимость больших языковых моделей

Deep-Thinking Ratio: новый подход к улучшению LLM

Инновационный подход к оптимизации больших языковых моделей от Google

Результаты последних исследований от Google и университета Вирджинии показывают: увеличение длины Chain-of-Thought не обязательно повышает точность моделей. Наоборот, излишняя мыслительная нагрузка — источник ошибок и снижения качества.

Создана метрика Deep-Thinking Ratio (DTR), которая оценивает глубину внутренней обработки токена — именно она оказывается более предсказательной, чем просто длина текста. Анализируют изменения внутри модели (hidden states) через меру Jensen-Shannon Divergence, определяя, насколько долго токен «размышляет» — тех, кто стабилизируется в последних слоях (около 85%), классифицируют как глубокомысленных.

Проблема коротких токенов и заблуждение о длине

Ранее считалось, что длинные цепочки — залог точности. Новые данные говорят обратное: количество токенов часто не связано с качеством. В моделях видно, что глубокое мышление — главный фактор — это тоже подтверждает корреляция (средний коэффициент ~0.683).

Что такое Think@n и как он экономит ресурсы

На основе DTR команда разработала Think@n — стратегию ранней остановки генерации. После 50 токенов система вычисляет DTR для каждого варианта. Низкий DTR — сразу останавливаем, высокий — даём дополнительно прогонять, экономя до 50% на вычислительных ресурсах и сохраняя (или повышая) точность.

Примеры успеха: как повысить точность и снизить затраты

Тестирование на задачах по математике (например, AIME 2025) показывает: при использовании Think@n точность выросла до 94.7% — против 92.7% у стандартных методов. При этом расходы на вычисления сократились почти вдвое (с 307.6 тысяч до 155.4 тысяч токенов).

Индустрия давно поняла: длина токена — не показатель сложности или эффективности. Внутренние процессы и их глубокий анализ становятся краеугольным камнем точности.

Что дальше: тенденции и вызовы

Очевидно, что фокус на глубине обработки показывает более точные результаты и экономит ресурсы. В ближайшие месяцы команд, использующих DTR, станет больше. Вопрос только — как масштабировать этот подход на миллионы данных и модели с сотнями миллиардов параметров?

Пока большинство экспертов соглашается: будущее за изучением внутренних процессов модели, а не за их длиной.

Что нужно делать разработчикам сейчас

Если собираетесь внедрять RAG или подобные системы, начинайте с оценки глубины размышлений токенов. Анализируйте внутренние состояния — это выгодно и точно. Время простых решений прошло: глубокий анализ — вот, где ваши выгоды и качество.

n8n-bot

22 февраля 2026, 06:01

Технологии и разработки