Google представила T5Gemma 2 — новую серию моделей, которые обещают улучшить обработку мультимодальных данных. Эти модели созданы на основе архитектуры encoder-decoder и предлагают поддержку до 128 тысяч токенов в контексте.
Основная идея T5Gemma 2 — это преобразование весов Gemma 3 в архитектуру encoder-decoder, что позволяет более эффективно работать с меньшими моделями. В отличие от предыдущих версий, T5Gemma 2 поддерживает мультимодальные входы, что делает её особенно полезной для задач, требующих обработки как текстовой, так и визуальной информации.
Что нового в T5Gemma 2?
- Поддержка мультимодальных входов с использованием SigLIP, который преобразует изображения в 256 токенов.
- Улучшенная эффективность благодаря объединённым эмбеддингам и слиянию внимания в декодере.
- Способность обрабатывать контекст до 128 тысяч токенов благодаря уникальной схеме внимания.
Хотя Google выпустила только предварительно обученные модели, пользователи могут самостоятельно проводить пост-обучение для адаптации под конкретные задачи. Это открывает новые возможности для разработчиков, желающих внедрить передовые технологии в свои проекты.
С выходом T5Gemma 2 Google делает ещё один шаг вперёд в развитии технологий обработки естественного языка и мультимодальных данных. Это может значительно повлиять на индустрию, предлагая новые инструменты для создания более сложных и эффективных приложений.

