Русский ИТ бизнес 👨
Подписаться
Post media
Робототехника вот-вот сильно изменится. Алгоритм, созданный компанией DeepSeek, позволяет роботам обучаться так же, как люди.

Обычно роботы учатся с помощью простых, заранее заданных "наградах" - и из-за этого им трудно справляться со сложными задачами и адаптироваться к новым ситуациям.

GRPO (Group Relative Policy Optimization) меняет этот подход. Вместо фиксированных наград он оценивает сразу несколько вариантов действий и присваивает относительные оценки - то есть сравнивает, какой результат лучше. Благодаря этому роботы могут развивать навыки постепенно, анализируя свои ошибки и улучшаясь шаг за шагом, как человек.

GRPO уже стал большим прорывом в обучении нейросетей, а теперь может серьёзно изменить и будущее робототехники.

Если вы думаете, что я понял о чем речь - ошибаетесь. Но видимо что-то реально прорывное. GRPO - это способ обучать модель (или робота), заставляя её учиться «на своих же вариантах ответа», сравнивая их между собой, а не с какой‑то внешней фиксированной оценкой.

Русский ИТ бизнес

Комментарии (0)

  • mack_os
    так у нас нет никакой робототехники, мы вон с нарисованными лего-роботами щас боремся
  • TrillionsUPUP
    Блин круто!
    300-400 млн инженеров КНР 🇨🇳 конечно дают плоды
  • TrillionsUPUP
    Еще получается метало детектор, емкостный на человека чтобы реагировал, допилить чтобы как то каменные препятствия избегал, хотя как на пылесосах, концевики, типа нажатие и дешевый робот в пути.
  • TrillionsUPUP
    Без всяких лидаров, которые стоят как конюшня 🐴
  • Seregga_78
    А чего тут понимать, простыми словами "обучение в режиме реального времени". 😊
    Совсем не сложные процессы. 😉