Современные крупные языковые модели (КЯМ), такие как GPT, поражают своими способностями генерировать текст, который может казаться разумным и осмысленным. Но как именно они обучаются, и чем их процесс обучения отличается от человеческого? В этой статье мы рассмотрим три ключевых аспекта обучения КЯМ: предобучение, дообучение и усиление, а также сравним их с человеческим обучением.
Предобучение: основа языковых моделей
Предобучение — это начальная фаза обучения КЯМ, где модель обучается на огромных объемах текстов. Основная задача модели на этом этапе — предсказать следующий токен в последовательности. Токены — это числовые представления слов или их частей. Например, фраза "Ребенок посмотрел под кровать и" может выглядеть как последовательность токенов [14305, 10585, 7111, 1234, 279, 4950, 323, 863]. Модель назначает вероятность каждому возможному следующему токену, и в процессе обучения корректирует свои параметры, чтобы минимизировать ошибки предсказания.

Важно понимать, что на этапе предобучения модель не обладает ни понятием смысла, ни намерением, ни целью коммуникации. Она просто обучается на статистических регулярностях в данных. Это позволяет ей выявлять сложные закономерности в языке, такие как синтаксис и стилистика, но не более.
Сравнение с человеческим восприятием
Человеческое восприятие языка также включает в себя предсказание, но это лишь побочный продукт более глубокого понимания. Когда человек слушает историю, он создает в уме модель происходящего: отслеживает персонажей, их намерения и эмоции. В отличие от КЯМ, прогнозирование слов для человека является следствием понимания, а не самоцелью.
Дообучение и усиление: от автозавершения к полезному ассистенту
После предобучения модель проходит этапы дообучения и усиления, которые превращают её из мощного автозавершателя в инструмент, способный следовать инструкциям и отвечать на вопросы. В этом процессе специалисты предоставляют модели примеры желаемого поведения, ранжируют её ответы и дают обратную связь. Это позволяет модели звучать более вежливо, избегать определенных тем и давать более развернутые ответы.

Однако важно понимать, что этот этап не добавляет модели новых знаний о мире. Она не приобретает опыт, как человек, который учится на собственных ошибках. Модель просто оптимизируется для генерации выходных данных, которые люди считают хорошими.
Как это работает у людей
Человек, обучающийся, например, скалолазанию, получает обратную связь в процессе: он чувствует напряжение в теле, понимает, когда его хватка нестабильна, и корректирует свои действия. В отличие от этого, модель обучается только на основе внешних сигналов, не имея доступа к внутреннему процессу, который привел к результату.
Проблема "мышления" и рассуждений
Когда КЯМ демонстрирует "мышление", она на самом деле просто продолжает генерировать следующий токен на основе предыдущих. Она видела множество примеров текстов, похожих на рассуждения, и поэтому может воспроизводить подобные последовательности. Однако это не значит, что модель действительно размышляет, как человек. Она не знает, какие шаги необходимы для достижения правильного вывода — она лишь генерирует язык, который выглядит как рассуждения.
Таким образом, хотя КЯМ и могут впечатлять своими навыками, важно помнить, что их "разумность" — это всего лишь иллюзия, основанная на огромных объемах данных и сложных алгоритмах статистической обработки.