Авторы подали иск: AI обучали на пиратских книгах

Лид: Группа писателей, частично возглавляемая разоблачителем Theranos и автором "Bad Blood" Джоном Керриру, подала новый иск, в котором обвиняет шесть крупных AI-компаний в обучении больших языковых моделей (LLM) на пиратских копиях их книг. В перечень ответчиков вошли Anthropic, Google, OpenAI, Meta, xAI и Perplexity.

Контраст обещаний и реальности: AI-индустрия долго жила историей про «большие данные» и универсальные модели. Авторы говорят: данные были украдены, а компании на этом заработали. В иске звучит прямое недовольство прежними соглашениями, которые, по мнению истцов, выгодны платформам, но не авторам.

Что именно требует иск

Авторы обвиняют компании в использовании пиратских копий книг для обучения LLM. В тексте жалобы есть жёсткие формулировки — переведём ключевые тезисы: "[Соглашение с Anthropic] кажется служит [AI-компаниям], а не создателям" и "LLM-компаниям не должно быть так просто погасить тысячи дорогостоящих исков по бросовым ставкам, замалчивая реальную цену их массового умышленного нарушения". Эти цитаты взяты из жалобы и отражают суть претензий.

Предыстория: дело против Anthropic и предполагаемое соглашение

Это не первая подобная юридическая баталия. Ранее в рамках коллективного иска против Anthropic суд пришёл к выводу, что обучение моделей на пиратских копиях само по себе может быть законным, тогда как акт пиратства как таковой был признан противоправным. То дело завершилось предложением о мировом соглашении на сумму 1,5 миллиарда долларов. Согласно предложению, подходящие авторы могли бы получить примерно по 3 000 долларов каждый.

Но часть писателей осталась недовольна: они считают, что сумма и механизм расчёта компенсаций не отражают истинного вреда и не удерживают компании от повторения практики. Новый иск прямо критикует предыдущее соглашение как выгодное AI-фирмам и несправедливое для создателей.

Почему это имеет значение для индустрии

Юридический прецедент. Если суды начнут признавать ответственность платформ за массовое использование пиратских материалов в обучении, это может переломить практику сбора данных.
Экономика моделей. Масштабные компенсации и необходимость лицензирования данных увеличат издержки компаний, тренирующих LLM на общедоступных корпусах.
Публичная повестка. Дело усиливает внимание к происхождению датасетов и к правам авторов — тема стала политической и общественной, а не только технической.

Что изменилось и куда движется тренд

Раньше индустрия прятала вопрос происхождения данных под общим знаменем "массового обучения". Теперь авторы и правозащитники подают иск за иском, требуя прозрачности и компенсаций. Похоже, мы на этапе, когда вопросы легитимности датасетов выходят на передний план и заставят компании пересмотреть практики сбора данных и лицензирования.

В ближайшие 6-12 месяцев можно ожидать двух вещей: юридических ответов (новых исков, ходов к соглашению или судов) и коммерческих корректировок — больше лицензий, больше трекинга источников данных и, возможно, рост спроса на платные, «чистые» датасеты.

Практические выводы для разработчиков и издателей

Разработчикам моделей стоит начать с аудита датасетов: откуда данные, есть ли лицензии, можно ли доказать право использования.
Командам, которые закупают модели или датасеты, лучше требовать от поставщиков гарантий и прописанных прав на данные.
Авторам и издателям стоит активнее выяснять, используются ли их тексты, и при необходимости объединяться для коллективных действий.

Заключение: новый иск Джона Керриру и коллег — это не просто очередная юридическая тяжба, это сигнал индустрии. Вопросы правомерности источников обучения LLM уже не остаются в тени. От того, как суды и компании ответят, зависит экономика больших моделей и практики работы с данными в ближайшие годы. Для разработчиков это пора перестать игнорировать происхождение данных и начать выстраивать прозрачные, лицензированные цепочки поставок данных.

Опубликовано: 23 декабря 2025 года, 11:02 PST. Автор исходного материала: Amanda Silberling. Фото: Yuichiro Chino / Getty Images.