В поисках новой мысли: как Vector Policy Optimization заставляет LLM генерировать не одно и то же

В поисках новой мысли: как Vector Policy Optimization заставляет LLM генерировать не одно и то же

Разработчики представили Vector Policy Optimization (VPO) — метод обучения с подкреплением, который вместо одной «правильной» траектории поощряет модель генерировать разнообразные, но релевантные ответы.

VPO решает ключевую проблему RLHF — потерю креативности и разнообразия при выравнивании под предпочтения человека.

Читать статью →

Подписаться на канал

222

👍 0

Комментариев пока нет.