- Telega FM

Русский ИТ бизнес

11 дек 2025 11:40

Робототехника вот-вот сильно изменится. Алгоритм, созданный компанией DeepSeek, позволяет роботам обучаться так же, как люди.

Обычно роботы учатся с помощью простых, заранее заданных "наградах" - и из-за этого им трудно справляться со сложными задачами и адаптироваться к новым ситуациям.

GRPO (Group Relative Policy Optimization) меняет этот подход. Вместо фиксированных наград он оценивает сразу несколько вариантов действий и присваивает относительные оценки - то есть сравнивает, какой результат лучше. Благодаря этому роботы могут развивать навыки постепенно, анализируя свои ошибки и улучшаясь шаг за шагом, как человек.

GRPO уже стал большим прорывом в обучении нейросетей, а теперь может серьёзно изменить и будущее робототехники.

Если вы думаете, что я понял о чем речь - ошибаетесь. Но видимо что-то реально прорывное. GRPO - это способ обучать модель (или робота), заставляя её учиться «на своих же вариантах ответа», сравнивая их между собой, а не с какой‑то внешней фиксированной оценкой.

Русский ИТ бизнес

👍 0

Янтарный Тетерев 2025-12-11 11:59

так у нас нет никакой робототехники, мы вон с нарисованными лего-роботами щас боремся Ответить
Аметистовый Марабу 2025-12-11 14:42

Блин круто!
300-400 млн инженеров КНР 🇨🇳 конечно дают плоды Ответить
Аметистовый Марабу 2025-12-11 14:43

Еще получается метало детектор, емкостный на человека чтобы реагировал, допилить чтобы как то каменные препятствия избегал, хотя как на пылесосах, концевики, типа нажатие и дешевый робот в пути. Ответить
Аметистовый Марабу 2025-12-11 14:44

Без всяких лидаров, которые стоят как конюшня 🐴 Ответить
Буржуазный Голем 2025-12-13 11:04

А чего тут понимать, простыми словами "обучение в режиме реального времени". 😊
Совсем не сложные процессы. 😉 Ответить