Русский ИТ бизнес
Русский ИТ бизнес

Открыты исходники Marlin-2B

Открыты исходники Marlin-2B
Открыты исходники Marlin-2B

Это компактная визуально-языковая модель для извлечения структурированной информации из видео.

Marlin дообучен под два ключевых запроса, которые чаще всего нужны разработчикам при работе с видео: что происходит и когда именно.

Модель в своём классе по размеру показывает сильные результаты, конкурируя с Gemini-2.5-flash при всего 2 млрд параметров.

Marlin обучался в двух режимах:

1. marlin.caption() возвращает структурированный JSON со сценой и событиями, с таймкодами с точностью до секунд.

Это можно использовать для генерации субтитров к роликам в Reels, индексации видеобиблиотеки или для передачи агенту контекста о том, что и когда произошло в видеопотоке.

2. marlin.find() возвращает таймкоды (начало, конец) для любого запроса на естественном языке по видео.

Модель достаточно быстрая, чтобы работать прямо в цикле агента; её можно использовать для поиска фрагментов видео с точностью до долей секунды.

Модель: https://huggingface.co/NemoStation/Marlin-2B
Демо: https://vlm.nemostation.com/

🟪 MAXTG

Комментариев пока нет.