PyVision: когда ИИ пишет инструменты на Python прямо во время работы
Вместо того чтобы ограничиваться готовыми наборами функций, новая платформа PyVision позволяет крупным мультимодальным языковым моделям создавать и запускать Python-код «на лету», адаптируясь к каждому визуальному заданию.
Процесс выглядит так: модель получает картинку и запрос, генерирует фрагмент кода, запускает его в «песочнице» и анализирует результаты – будь то числовые данные, текст или графика. Затем она корректирует свой подход, сохраняя переменные между итерациями для более глубокого понимания контекста.
Безопасность обеспечивается изоляцией процессов и строго структурированным вводом-выводом, а за сложные алгоритмы отвечают знакомые библиотеки – OpenCV, NumPy, Pillow. Это не просто эксперимент: PyVision повысила точность GPT-4.1 на задаче визуального поиска на 7,8% (до 75,9%) и улучшила результаты Claude-4.0-Sonnet по символическим головоломкам более чем на 30%, а в других тестах выигрыш составил 2,4–8,3%.
Исследование, выполненное совместно Shanghai AI Lab, Rice University, CUHK, NUS и SII, открывает путь к «агентному» ИИ, который самостоятельно выстраивает стратегию решения задач. Представьте, как такая гибкость может помочь в меддиагностике или решении сложных визуальных математических задач – возможностей намного больше, чем просто распознавание объектов.
Хотя PyVision не заменяет существующие модели, оно снимает узкое место в их способности к абстрактным и контекстно зависимым рассуждениям, заставляя ИИ думать и программировать одновременно. Разработка уже доступна на GitHub, так что каждый может оценить потенциал «самопрограммирующегося» ИИ.
