Несколько лет назад RAG-технологии казались простым решением: быстро доставить ответы из данных без сложных моделей. Но на практике командами пришлось столкнуться с проблемами, которые перечёркнули иллюзии.
Обещания быстро внедрить и получить мгновенный результат превратились в месяцы тестирования, исправлений и понимания: без правильной подготовки данных ничего не работает. В индустрии появился реальный опыт, и сейчас старое «чем проще, тем лучше» заменяется вниманием к деталям — особенно к качеству данных.
Почему это важно? Потому что большинство провалов связано не с архитектурой, а с ошибками в данных или неправильном понимании процессов. Уже сегодня крупные компании, такие как Яндекс и Тинькофф, начинают строить системы с упором на подготовку данных, а не только на модель.
Урок 1: Архитектура не решает всё — главный секрет в данных
- Модели трансформеров выросли в размерах, но без правильных данных они превращаются в дорогой мусор
Урок 2: От красивого кода — к реальности данных
- Оригинальные данные иногда требуют переработки и структурирования, иначе поиск в них превращается в гадание
Что изменилось: опытные разработки начинают с данных, а не с модели
- Компании научились считать время и ресурсы на подготовку данных — и это занимает в 10 раз больше, чем сам запуск модели
Почему подготовка данных займет в 10 раз больше времени
- Все спешат — а подготовка данных скучна и трудоемка, поэтому её часто пропускают, что в итоге ведет к провалам
Взгляд на будущее показывает — индустрия качается к тому, что без правильных данных ничего не получится, а развитие технологий обязательно потребует серьезных инвестиций в их подготовку. Те, кто это поймут раньше, будут в выигрыше.
