PAR: метод параллелизации в генерации изображений и видео. Авторегрессионное моделирование использует последовательный принцип “

PAR: метод параллелизации в генерации изображений и видео. Авторегрессионное моделирование использует последовательный принцип “токен за токеном“ с отличными результатами, но, с развитием качества генерации и размеров моделей, требует больших вычислительных ресурсов, замедляя процесс инференса. Анализ зависимостей между токенами выявил закономерность, что токены, пространственно удаленные друг от друга, обладают более слабыми взаимосвязями. Так родилась теория о возможности их параллелизации, которая получила название PAR (Parallelized Autoregressive Visual Generation ). PAR предлагает разделение изображения на локальные сегменты, в которых начальные токены генерируются последовательно для формирования глобальной структуры. Затем выполняется параллельная генерация токенов в сегментах. Такой подход дает ускорение процесса генерации изображений и видео в 3,6 раза при сохранении сопоставимого качества, и до 9,5 раз при минимальном снижении качества. PAR может интегрироваться в стандартные архитектуры авторегрессионных моделей, не требуя их модификации, при этом используется механизм переупорядочивания токенов и набор обучаемых эмбеддингов, чтобы поддержать плавность перехода между последовательным и параллельным режимами генерации. Эксперименты с PAR проводились на наборах ImageNet и UCF-101, с токенизаторами VQGAN и MAGVIT-v2. Качества итоговых изображений оценивалось метриками FID и IS, а для видео - метрикой FVD. В результате, PAR с набором ImageNet показал сокращение количества шагов генерации в 3,9 раза и ускорение в 3,6 раза при сопоставимом уровне качества. В кейсе с более интенсивной параллелизацией количество шагов сократилось в 11,3 раза, а ускорение в 9,5 раз с минимальным снижением качества. С датасетом UCF-101 PAR-4x (реализация с четырьмя параллельными токенами) показала ускорение в 3,8 раза при незначительном ухудшении качества, а PAR-16x (16 токенов) - в 12,6 раза, также при минимальных изменениях метрики FVD. Код проекта обещают опубликовать в ближайшее время. Страница проекта Arxiv GitHub (Coming soon)
Back to Top