Кто уже попробовал? Пишут, что ИИ очень достойно стала двигать мышкой и эмулировать человека в навигации по рабочему столу. Вообще для кросс-постов тема прикольная :) Мечтаю попробовать. @bezsmuzi
3 288
👍 9
28
Комментарии (28)
Плывущий Фанат
computer use выполняет задачи долго и дорого, вообще не понимаю прикола Ответить
раскрыть ветку (1)
Сонный Гранат
Можно запустить и лечь спать или прибухнуть без опасности натыкать "не туда" (каламбур 🥳) Ответить
Сказочный Корректор
ну что, двигатели мышек, на выход - вас заменил ии. Ответить
Эфирный Доцент
Сомневаюсь, что она в автокаде что то сможет. Ответить
Навигация по рабочему столу через скриншоты... я такое реализовывал, когда прогать ток учился. Не знал что для этого крутые нейронки нужны, мощные видео карты и тому подобное Ответить
раскрыть ветку (10)
Пряный Единорог
Нейронка может думать в процессе. Например: "Введу сюда цифру 2. Ой, баннер какой-то вылез. Антивирус что ли? Похоже. Попробую закрыть, вижу крестик. Не получается, ну ладно, сдвину в сторону мышкой пока. Снова ввожу 2". Сомневаюсь, что ваша программа так могла без нейронки. Ответить
раскрыть ветку (8)
Пушистый Грифон
Это все понятно. Удивляет просто восторг масс от такой фичи.
LLM уже довольно давно не плохо распознают картинки.
А мышкой двигать, текст печатать можно программно с момента появления всех этих девайсов.
Т.е. при желании такой на вайбкодить можно давно уже. А преподносится все - как супер фича Ответить
раскрыть ветку (7)
Эфирный Доцент
Я такую штуку делал на RNN сетках для телефона, но в самый разгар разработки гугл закрыл доступ к считыванию тачей экрана и проект умер. Ответить
Пряный Единорог
Такие штуки имеют просто огромные перспективы. Процентов 70% офисного персонала в небоскребах по всему в течение дня занимаются только тем, что перекладывают информацию из одного окна в другое. Особенно в древних системах под Windows GUI, для которых нет и не будет API, потому что производитель умер ещё 15 лет назад. Это называется человеческий клей, который соединяет потоки информации между системами с помощью зрения и мышки. Все эти люди получают хорошие зарплаты, страховки, отпускные и больничные. Ответить
раскрыть ветку (5)
Эфирный Доцент
Существует сотни методов автоматизировать эти процессы без нейронок, но раз до сих пор не сделали, значит этот клей кому то нужен. Ответить
раскрыть ветку (2)
Пряный Единорог
Есть RPA системы типа UiPath. Те, кто с ними работал понимают, что в проде они работают очень короткое время после внедрения и получения денег вендором. Потом ломаются и все опять возвращается к ручному вводу. Потому что RPA это просто тупой скрипт, кликаюший по кнопкам. Ответить
Тактичный Дроид
Это делали точечно. Автоматизация постоянно медленно но верно шла.
Подписи стали электронными. Просто один пример из многих Ответить
Пушистый Грифон
"Я про Фому а вы про Ерему" Я пытаюсь донести что и до выхода GPT 5.4 любой желающий мог навайбкодить скрипт, который отправляет LLM скриншот и промт, а на выходе получает координаты для движения/клика мышкой. Ответить
раскрыть ветку (1)
Пряный Единорог
Любой желающий мог. С точностью 43%, сейчас 75%, об этом заметка. Ответить
Океанический Гоблин
Так через нейронку много ещё чего прикольного можно: менять в тексте строчные буквы на заглавные, например. Ответить
вот еще говорят архитекторы ПО под защитой от ИИ, сколько месяц, два или даже год? =) Ответить
раскрыть ветку (2)
Тактичный Дроид
Архитекторы станут продукт менеджерами, маркетологами творцами (go to market инженерами), и схожими ролями Ответить
раскрыть ветку (1)
Тёмный Геймер
знакомы продакт нажимает каждые две минуты на трекер в таком режиме около года, через сети знакомых пробовал искать походил на собесы, но пока без результата Ответить
Тактичный Дроид
Кодерам уже нечем заняться часами, кроме ручного тестирования. Ручное тестирование драг н дропа, графических редакторов , и графических игр -это скорее всего автоматизируют до конца года, к этому всё идёт, это боль всей индустрии сейчас Ответить
раскрыть ветку (2)
Маринованный Ниндзя
Вы какие-то странные кодеры.
Я на плюсах пишу прошивки под роботехничечкие комплексы, там нет ничего из вашего этого мира разукрашивателей кнопок) Ответить
раскрыть ветку (1)
Тактичный Дроид
Это даже не наша индустрия, это скорее микроконтроллеры, микроэлектроника.
Боюсь представить относительный размер этой ниши относительно рынка, нулей после десятичного разделителя будет много Ответить
Пряный Единорог
Пока точность 75%, так и будет. Даже 95% это очень мало для использования в продакшене. Ответить
Тёмный Геймер
доктора в тренде консультация 30 минут 4000 рублей, но их тоже может ии успешно заменить даже хирургов Ответить
раскрыть ветку (3)
Тактичный Дроид
Они (врачи) уже давно глубоко оптимизированы. Всё на потоке, тяжёлая ответственность закреплена за их решениями. Там нет авантюризма и награды за него
А у нас в индустрии всё ещё есть такое Ответить
раскрыть ветку (2)
Тёмный Геймер
так что лучше вместо AI Engineer писать Доктор можно 6 лет сидеть без работы или пойти учиться на доктора =) Ответить
раскрыть ветку (1)
Тактичный Дроид
Лишь бы дело выгорело, написать можно всё. Можно змеиное масло по млм схеме продавать Ответить
Комментарии (28)
https://youtu.be/dxlyCPGCvy8?si=mKG7LyG-pYQsxJa_
LLM уже довольно давно не плохо распознают картинки.
А мышкой двигать, текст печатать можно программно с момента появления всех этих девайсов.
Т.е. при желании такой на вайбкодить можно давно уже. А преподносится все - как супер фича
Подписи стали электронными. Просто один пример из многих
Я на плюсах пишу прошивки под роботехничечкие комплексы, там нет ничего из вашего этого мира разукрашивателей кнопок)
Боюсь представить относительный размер этой ниши относительно рынка, нулей после десятичного разделителя будет много
А у нас в индустрии всё ещё есть такое