TRELLIS : универсальная модель для генерации 3D-контента от Microsoft

️ TRELLIS : универсальная модель для генерации 3D-контента от Microsoft. TRELLIS - модель для создания высококачественных 3D-объектов на основе текстового промпта или изображения с помощью унифицированного представления Structured LATent (SLAT), которое декодирует данные в форматы: Radiance Fields, 3D-гауссианы и полигональные сетки. SLAT обладает универсальностью, используя комбинацию из разреженной 3D-сетки и плотных визуальных признаков, извлеченных моделью DINOv2 из входного изображения. TRELLIS использует модифицированные rectified flow transformers, адаптированные для работы с SLAT. Обучение набора моделей TRELLIS , размерами до 2 млрд. параметров, выполнялось на датасете из 500 тыс. разнообразных 3D-объектов. Пока в открытый доступ опубликована только Image-to-3D версия - TRELLIS -image-large с 1.2 млрд. параметров. Остальные вариации модели для генерации 3D по тексту: TRELLIS -text-base (342М), TRELLIS -text-large (1.1В) и TRELLIS -text-xlarge (2В) и код для их трейна будут представлены позже (сроки не указаны). Для локального запуска TRELLIS -image-large рекомендуется NVIDIA GPU с VRAM 16GB или больше. Установка и запуск c WebUI (Gradio): git clone —recurse-submodules TRELLIS .git cd TRELLIS . ./ —new-env —basic —flash-attn —diffoctreerast —spconv --mipgaussian —kaolin —nvdiffrast . ./ —demo python Лицензирование: MIT License. Страница проекта Модель Arxiv Demo GitHub
Back to Top