Открыты исходники Marlin-2B
Это компактная визуально-языковая модель для извлечения структурированной информации из видео.
Marlin дообучен под два ключевых запроса, которые чаще всего нужны разработчикам при работе с видео: что происходит и когда именно.
Модель в своём классе по размеру показывает сильные результаты, конкурируя с Gemini-2.5-flash при всего 2 млрд параметров.
Marlin обучался в двух режимах:
1. marlin.caption() возвращает структурированный JSON со сценой и событиями, с таймкодами с точностью до секунд.
Это можно использовать для генерации субтитров к роликам в Reels, индексации видеобиблиотеки или для передачи агенту контекста о том, что и когда произошло в видеопотоке.
2. marlin.find() возвращает таймкоды (начало, конец) для любого запроса на естественном языке по видео.
Модель достаточно быстрая, чтобы работать прямо в цикле агента; её можно использовать для поиска фрагментов видео с точностью до долей секунды.
Модель: https://huggingface.co/NemoStation/Marlin-2B
Демо: https://vlm.nemostation.com/
🟪 MAX ❤ TG

Комментариев пока нет.