Apollo : семейство мультимодальных моделей для понимания медиаконтента
Apollo : семейство мультимодальных моделей для понимания медиаконтента.
Apollo - набор MMLM, которые умеют решать разные задачи с видеоконтентом. Они могут понимать длинные видео, рассуждать о событиях во времени и поддерживать многосторонние видео-диалоги.
Модели показывают высокую производительность даже при относительно небольшом размере в 3 млрд. параметров, превосходя по эффективности конкурентов с моделями в 7В-30В параметров.
Этого удалось достичь благодаря тщательному проектированию и комбинированию SigLIP-SO400M (для изображений) и InternVideo2 (для видео). Их синергия дает более устойчивое представление на задачах временных рассуждений.
Семейство состоит из трех моделей:
Apollo 7B
Apollo 3B
Apollo
Код для тонкой настройки, применение LoRA в Apollo и документацию разработчики обещают опубликовать позднее. Пока в репозитории проекта размещен только
1 view
23
3
1 month ago 01:23:50 3
«Мизинец Будды» («Чапаев и Пустота») смотреть в хорошем качестве
2 months ago 00:47:23 56
Total War Has Fallen
2 months ago 00:16:08 1
The Largest Greek Temple Ever Built
2 months ago 00:27:29 1
Самое страшное в исследовании космоса
2 months ago 00:15:48 11
Kickstart 2 By Nicky Romero And Cableguys Review And Demo (Plus A Giveaway!!!)
2 months ago 00:05:38 1
God Games | EPIC: The Musical Animatic
2 months ago 00:03:35 1
Moby - ’Why Does My Heart Feel So Bad? (Reprise Version)’ (Official Video) #WhyDoesMyHeartFeelSoBad