PyVision — фреймворк, где ИИ генерирует Python-инструменты в процессе мышления

PyVision: когда ИИ пишет инструменты на Python прямо во время работы

Вместо того чтобы ограничиваться готовыми наборами функций, новая платформа PyVision позволяет крупным мультимодальным языковым моделям создавать и запускать Python-код «на лету», адаптируясь к каждому визуальному заданию.

Процесс выглядит так: модель получает картинку и запрос, генерирует фрагмент кода, запускает его в «песочнице» и анализирует результаты – будь то числовые данные, текст или графика. Затем она корректирует свой подход, сохраняя переменные между итерациями для более глубокого понимания контекста.

Безопасность обеспечивается изоляцией процессов и строго структурированным вводом-выводом, а за сложные алгоритмы отвечают знакомые библиотеки – OpenCV, NumPy, Pillow. Это не просто эксперимент: PyVision повысила точность GPT-4.1 на задаче визуального поиска на 7,8% (до 75,9%) и улучшила результаты Claude-4.0-Sonnet по символическим головоломкам более чем на 30%, а в других тестах выигрыш составил 2,4–8,3%.

Исследование, выполненное совместно Shanghai AI Lab, Rice University, CUHK, NUS и SII, открывает путь к «агентному» ИИ, который самостоятельно выстраивает стратегию решения задач. Представьте, как такая гибкость может помочь в меддиагностике или решении сложных визуальных математических задач – возможностей намного больше, чем просто распознавание объектов.

Хотя PyVision не заменяет существующие модели, оно снимает узкое место в их способности к абстрактным и контекстно зависимым рассуждениям, заставляя ИИ думать и программировать одновременно. Разработка уже доступна на GitHub, так что каждый может оценить потенциал «самопрограммирующегося» ИИ.

25 июля 2025, 14:21

Новости индустрии ИИ

PyVision — фреймворк, где ИИ генерирует Python-инструменты в процессе мышления

PyVision: когда ИИ пишет инструменты на Python прямо во время работы

Связанные ИИ

Новости new