Исследователи представили новую методику анализа рассуждений больших языковых моделей (LLM), получившую название Thought Anchors. Эта система позволяет с высокой точностью выявлять ключевые этапы размышлений ИИ во время выполнения задач.
В основе Thought Anchors лежит идея, что внутри вывода LLM можно выделить опорные точки — краткие, но значимые фрагменты размышлений, определяющие ход решения. Новая методика не требует доступа к внутренним параметрам модели и работает исключительно на уровне входов и выходов, что делает её особенно удобной для анализа закрытых систем.
Авторы продемонстрировали, что Thought Anchors можно использовать для повышения прозрачности, диагностики ошибок и сравнения различных моделей. В частности, метод показал высокую точность в задачах пошагового вывода, включая решение математических и логических задач.
Система базируется на так называемых «промежуточных проверках» (intermediate checks) — в процессе генерации ответов модель останавливается на определённых этапах, чтобы подтвердить или опровергнуть отдельные элементы рассуждения. Таким образом, удаётся зафиксировать, какие конкретно фрагменты оказали решающее влияние на финальный результат.
Разработчики отмечают, что методика хорошо масштабируется и может быть применена к широкому спектру задач: от классификации и генерации до объяснения решений ИИ в чувствительных областях, таких как медицина или право.
«Наш подход делает мышление моделей более измеримым и интерпретируемым», — поясняют авторы. В перспективе Thought Anchors может стать важным инструментом для создания более надёжных и объяснимых ИИ-систем.
