Насколько это круто? Представьте агента, перед которым нет дилеммы: «щёлкнуть по экрану или написать код?» Он делает и то, и другое. Вот он, CoAct-1 — гибридный герой в мире автоматизации. Он умён, он лаконичен, и он задаёт новый оборот темпа.
Есть у нас внутри три персонажа, каждый с крутой задачей. Оркестратор — мозг операции. Он разбивает задачу на куски и решает, кто справится — Программист (тот, кто пишет Python или Bash-скрипты) или GUI-Оператор (тот, кто нажимает и кликает). Не надо выбирать — система сама решает, где применить автоматизацию, а где — визуальный подход. И это приятно, что всё работает вместе, как настоящая команда.
На жёстком испытании OSWorld, охватывающем почти 370 заданий — от редактирования файлов до сложных много-приложенческих сценариев — CoAct-1 устанавливает рекорд: 60.76 % успеха. Это намного выше предыдущих лидеров. И что особенно ценно — он решает задачи быстрее, в среднем за 10 шагов, в то время как другие — за 15. Тронь одним скриптом — и готово.
Преимущество? Оно особенно заметно там, где GUI трясётся и ломается — OS-уровень, мульти-приложения, работа с почтой Thunderbird. Устойчивость + скорость = победа.
Но, как в кино, не без драматизма. Где-то агент наталкивается на высокоуровневые или неясные запросы и наталкивается на стены. Например, пытаясь настроить VSCode чтобы курсор не прыгал — он не сообразил, что дело в «breakpoints». Или хотел скрыть папки "__pycache__", но поменял настройки не в том месте. Мелочь? Не совсем. Это отражает важность ясной инструкции и разумного планирования.
Так что CoAct-1 — не магия, но очень зрелая инженерия: три агента, гибридный стиль, 60 %+ на жестком бенче, меньше шагов и мгновенная гибкость. В будущем именно такие подходы могут вывести автоматизацию на новый уровень — просто представьте, как агент пишет код, щёлкает там, где надо, и никогда не сбоит. Именно этим он привлекательный. Именно этим он врезается в память.
