Кто уже попробовал? Пишут, что ИИ очень достойно стала двигать мышкой и эмулировать человека в навигации по рабочему столу. Вообще для кросс-постов тема прикольная :) Мечтаю попробовать. @bezsmuzi
3 288
👍 9
28
Комментарии (28)
Плывущий Фанат
computer use выполняет задачи долго и дорого, вообще не понимаю прикола
Сонный Гранат
Можно запустить и лечь спать или прибухнуть без опасности натыкать "не туда" (каламбур 🥳)
Сказочный Корректор
ну что, двигатели мышек, на выход - вас заменил ии.
Эфирный Доцент
Сомневаюсь, что она в автокаде что то сможет.
Трагический Мутант
Не автокад, но в блендере уже фигачит
https://youtu.be/dxlyCPGCvy8?si=mKG7LyG-pYQsxJa_
Пушистый Грифон
Навигация по рабочему столу через скриншоты... я такое реализовывал, когда прогать ток учился. Не знал что для этого крутые нейронки нужны, мощные видео карты и тому подобное
Пряный Единорог
Нейронка может думать в процессе. Например: "Введу сюда цифру 2. Ой, баннер какой-то вылез. Антивирус что ли? Похоже. Попробую закрыть, вижу крестик. Не получается, ну ладно, сдвину в сторону мышкой пока. Снова ввожу 2". Сомневаюсь, что ваша программа так могла без нейронки.
Пушистый Грифон
Это все понятно. Удивляет просто восторг масс от такой фичи.
LLM уже довольно давно не плохо распознают картинки.
А мышкой двигать, текст печатать можно программно с момента появления всех этих девайсов.
Т.е. при желании такой на вайбкодить можно давно уже. А преподносится все - как супер фича
Эфирный Доцент
Я такую штуку делал на RNN сетках для телефона, но в самый разгар разработки гугл закрыл доступ к считыванию тачей экрана и проект умер.
Пряный Единорог
Такие штуки имеют просто огромные перспективы. Процентов 70% офисного персонала в небоскребах по всему в течение дня занимаются только тем, что перекладывают информацию из одного окна в другое. Особенно в древних системах под Windows GUI, для которых нет и не будет API, потому что производитель умер ещё 15 лет назад. Это называется человеческий клей, который соединяет потоки информации между системами с помощью зрения и мышки. Все эти люди получают хорошие зарплаты, страховки, отпускные и больничные.
Комментарии (28)
https://youtu.be/dxlyCPGCvy8?si=mKG7LyG-pYQsxJa_
LLM уже довольно давно не плохо распознают картинки.
А мышкой двигать, текст печатать можно программно с момента появления всех этих девайсов.
Т.е. при желании такой на вайбкодить можно давно уже. А преподносится все - как супер фича