Hadoop. Spark

Техносфера Group, МГУ им. М.В. Ломоносова. Курс “Методы распределенной обработки больших объемов данных в Hadoop“ Лекция №12 “Spark“ Лектор - Алексей Романенко. Мотивация. RDD. Программная модель Spark. Higher-Order Functions. Трансформация RDD (Map, Reduce, Join, CoGroup, Union и Sample). RDD actions. SparkContext. Создание RDD. Общие переменные (broadcast, accumulator). Движок Apache Spark. Программный интерфейс Spark. Lineage. Зависимости между RDD (Narrow, Wide). Расписание задач. Отказоустойчивость RDD. Управление памятью. Приложения, которые подходят и не подходят для RDD.
Back to Top