Как ускорить обработку данных в Apache Spark: проверенные техники и лайфхаки // Демо-занятие курса «Spark Developer»

📍 Программа открытого урока курса «Spark Developer»: - Диагностика узких мест Анализ Spark UI и логов Выявление проблемных стадий (data skew, excessive shuffles) - Оптимизация работы с памятью Настройка параметров исполнителей (executors, memory overhead) Управление кэшированием и сериализацией - Ускорение операций Эффективное партиционирование данных Оптимизация join-операций (broadcast vs sort-merge) - Работа с источниками Выбор оптимальных форматов (Parquet, ORC) Предварительная фильтрация и predicate pushdown 👥 Для кого будет актуален этот вебинар? - Инженеры данных, работающие с Spark - Аналитики Big Data - Разработчики, сталкивающиеся с медленными Spark-запросами ✅ Что вы узнаете после вебинара: - Практические навыки ускорения Spark-приложений - Понимание методов диагностики проблем - Набор готовых решений для типовых сценариев - Знания по настройке кластера для максимальной производительности «Spark Developer» - Преподаватель: Валентин Шилин - старший программист/аналитик данных Deutsche Telekom IT GmbH Пройдите опрос по итогам мероприятия - → [|Перейти в сообщество] Следите за новостями проекта: → Telegram: → Хабр:
Back to Top