PAR: метод параллелизации в генерации изображений и видео. Авторегрессионное моделирование использует последовательный принцип “
PAR: метод параллелизации в генерации изображений и видео.
Авторегрессионное моделирование использует последовательный принцип “токен за токеном“ с отличными результатами, но, с развитием качества генерации и размеров моделей, требует больших вычислительных ресурсов, замедляя процесс инференса.
Анализ зависимостей между токенами выявил закономерность, что токены, пространственно удаленные друг от друга, обладают более слабыми взаимосвязями. Так родилась теория о возможности их параллелизации, которая получила название PAR (Parallelized Autoregressive Visual Generation ).
PAR предлагает разделение изображения на локальные сегменты, в которых начальные токены генерируются последовательно для формирования глобальной структуры. Затем выполняется параллельная генерация токенов в сегментах.
Такой подход дает ускорение процесса генерации изображений и видео в 3,6 раза при сохранении сопоставимого качества, и до 9,5 раз при минимальном снижении качества.
PAR может интегрироваться в стандартные архитектуры авторегрессионных моделей, не требуя их модификации, при этом используется механизм переупорядочивания токенов и набор обучаемых эмбеддингов, чтобы поддержать плавность перехода между последовательным и параллельным режимами генерации.
Эксперименты с PAR проводились на наборах ImageNet и UCF-101, с токенизаторами VQGAN и MAGVIT-v2. Качества итоговых изображений оценивалось метриками FID и IS, а для видео - метрикой FVD.
В результате, PAR с набором ImageNet показал сокращение количества шагов генерации в 3,9 раза и ускорение в 3,6 раза при сопоставимом уровне качества. В кейсе с более интенсивной параллелизацией количество шагов сократилось в 11,3 раза, а ускорение в 9,5 раз с минимальным снижением качества.
С датасетом UCF-101 PAR-4x (реализация с четырьмя параллельными токенами) показала ускорение в 3,8 раза при незначительном ухудшении качества, а PAR-16x (16 токенов) - в 12,6 раза, также при минимальных изменениях метрики FVD.
Код проекта обещают опубликовать в ближайшее время.
Страница проекта
Arxiv
GitHub (Coming soon)
4 views
13
2
6 months ago 00:12:50 0
Технологии за которые убивают изобретателей. Топ 5 запрещённых технологий