Русский ИТ бизнес
Русский ИТ бизнес
Post media

Кто уже попробовал

Кто уже попробовал? Пишут, что ИИ очень достойно стала двигать мышкой и эмулировать человека в навигации по рабочему столу. Вообще для кросс-постов тема прикольная :) Мечтаю попробовать. @bezsmuzi

Комментарии (28)

  • Плывущий Фанат
    Плывущий Фанат
    computer use выполняет задачи долго и дорого, вообще не понимаю прикола
    • Сонный Гранат
      Сонный Гранат
      Можно запустить и лечь спать или прибухнуть без опасности натыкать "не туда" (каламбур 🥳)
  • Сказочный Корректор
    Сказочный Корректор
    ну что, двигатели мышек, на выход - вас заменил ии.
  • Эфирный Доцент
    Эфирный Доцент
    Сомневаюсь, что она в автокаде что то сможет.
    • Трагический Мутант
      Трагический Мутант
      Не автокад, но в блендере уже фигачит

      https://youtu.be/dxlyCPGCvy8?si=mKG7LyG-pYQsxJa_
  • Пушистый Грифон
    Пушистый Грифон
    Навигация по рабочему столу через скриншоты... я такое реализовывал, когда прогать ток учился. Не знал что для этого крутые нейронки нужны, мощные видео карты и тому подобное
    • Пряный Единорог
      Пряный Единорог
      Нейронка может думать в процессе. Например: "Введу сюда цифру 2. Ой, баннер какой-то вылез. Антивирус что ли? Похоже. Попробую закрыть, вижу крестик. Не получается, ну ладно, сдвину в сторону мышкой пока. Снова ввожу 2". Сомневаюсь, что ваша программа так могла без нейронки.
      • Пушистый Грифон
        Пушистый Грифон
        Это все понятно. Удивляет просто восторг масс от такой фичи.
        LLM уже довольно давно не плохо распознают картинки.
        А мышкой двигать, текст печатать можно программно с момента появления всех этих девайсов.
        Т.е. при желании такой на вайбкодить можно давно уже. А преподносится все - как супер фича
        • Эфирный Доцент
          Эфирный Доцент
          Я такую штуку делал на RNN сетках для телефона, но в самый разгар разработки гугл закрыл доступ к считыванию тачей экрана и проект умер.
        • Пряный Единорог
          Пряный Единорог
          Такие штуки имеют просто огромные перспективы. Процентов 70% офисного персонала в небоскребах по всему в течение дня занимаются только тем, что перекладывают информацию из одного окна в другое. Особенно в древних системах под Windows GUI, для которых нет и не будет API, потому что производитель умер ещё 15 лет назад. Это называется человеческий клей, который соединяет потоки информации между системами с помощью зрения и мышки. Все эти люди получают хорошие зарплаты, страховки, отпускные и больничные.