Введение
Сегодня многие считают, что искусственный интеллект достиг уровня, когда он напоминает человеческий интеллект. Однако это представление может быть обманчивым. В данной статье мы рассмотрим, почему крупные языковые модели (LLM) кажутся умными, и как их обучение отличается от человеческого опыта. Мы также обсудим, почему это может вводить в заблуждение.

Как LLM обучаются на этапе предобучения
На этапе предобучения крупную языковую модель обучают с одной главной целью: предсказать следующий токен в последовательности. Это процесс, в котором модель не понимает смысла, намерения или цели. Она просто минимизирует ошибку предсказания, работая с огромными массивами текстов.
Модель работает с токенами — числовыми представлениями слов, а не с самими словами. Например, предложение "Ребенок посмотрел под кровать и" будет выглядеть как массив чисел [14305, 10585, 7111, 1234, 279, 4950, 323, 863]. Модель определяет вероятности следующих токенов, таких как "нашел" или "ничего".
Масштаб как ключевой фактор
Современные модели обучаются на триллионах токенов. Для сравнения, человек за всю жизнь сталкивается с гораздо меньшим количеством текста — миллионами или сотнями миллионов слов. Этот масштаб позволяет моделям обучаться сложным регулярностям языка, что и делает их, на первый взгляд, "умными".
Однако важно понимать, что для модели предсказание — это конечная цель, в то время как для людей это лишь побочный эффект истинного понимания. Мы строим ментальные модели, отслеживаем персонажей, эмоции и события, а предикции возникают из этого процесса.
Этапы дообучения и подкрепления
После предобучения модель превращается в мощный автодополнитель текста, но не в помощника. Этапы дообучения и обучения с подкреплением используют людей для демонстрации примеров желаемого поведения модели. Это помогает модели следовать инструкциям и адаптироваться к социально приемлемым формам поведения.
Однако, эти этапы не добавляют модельному пониманию мира, опыта или эмоционального восприятия. Модель оптимизируется для выдачи предпочтительных людям результатов, что отличается от человеческого обучения, где важна внутренняя модель и процесс обучения через взаимодействие с миром.
Различия в процессе обучения
Человеческое обучение включает в себя непрерывную обратную связь, основанную на реальных взаимодействиях. Например, при обучении скалолазанию мы чувствуем напряжение в теле и корректируем баланс. В отличие от этого, модели LLM получают только внешние сигналы: результат их работы либо предпочтителен, либо нет.

В чем разница между "мышлением" модели и человеческим мышлением
Когда модель кажется "мыслящей", она на самом деле просто генерирует следующий токен на основе предыдущих. Модель видела множество примеров текста, имитирующего рассуждения, и научилась, что для определенных вопросов лучше генерировать промежуточные текстовые шаги, которые выглядят как рассуждения.
Это объясняет, почему "мышление" модели может быть одновременно впечатляющим и хрупким. Модель не знает, какие шаги необходимы, а какие достаточны. Она генерирует последовательности, которые выглядят как рассуждения, и иногда эти последовательности совпадают с правильной логикой, а иногда — нет.
Заключение
Хотя современные языковые модели впечатляют своим поведением, они все еще далеки от истинного понимания. Их обучение основано на поглощении статистических регулярностей, а не на взаимодействии с миром. Это значит, что хотя они и могут казаться умными, они принципиально отличаются от человеческого интеллекта.