Робототехника вот-вот сильно изменится. Алгоритм, созданный компанией DeepSeek, позволяет роботам обучаться так же, как люди.
Обычно роботы учатся с помощью простых, заранее заданных "наградах" - и из-за этого им трудно справляться со сложными задачами и адаптироваться к новым ситуациям.
GRPO (Group Relative Policy Optimization) меняет этот подход. Вместо фиксированных наград он оценивает сразу несколько вариантов действий и присваивает относительные оценки - то есть сравнивает, какой результат лучше. Благодаря этому роботы могут развивать навыки постепенно, анализируя свои ошибки и улучшаясь шаг за шагом, как человек.
GRPO уже стал большим прорывом в обучении нейросетей, а теперь может серьёзно изменить и будущее робототехники.
Если вы думаете, что я понял о чем речь - ошибаетесь. Но видимо что-то реально прорывное. GRPO - это способ обучать модель (или робота), заставляя её учиться «на своих же вариантах ответа», сравнивая их между собой, а не с какой‑то внешней фиксированной оценкой.
Русский ИТ бизнес
Русский ИТ бизнес 👨
Подписаться

Комментарии (0)
300-400 млн инженеров КНР 🇨🇳 конечно дают плоды
Совсем не сложные процессы. 😉