Обработка данных с использованием Spark RDD, Spark SQL и Spark GraphFrames.
В видео я объясняю код к решению лабораторной работы по методам анализа больших объёмов данных. По заданию необходимо найти пользователя из РФ, чаще остальных упоминающего фамилии российских политических деятелей. Решение этого задания представлено в двух вариантах - на RDD и Spark SQL. Также нашёл наибольшую компоненту связности социального графа (группу пользователей, которые общаются преимущественно друг с другом) для иностранных/российских/московских пользователей с помощью Spark GraphFrames.
Ссылка на исходный код будет добавлена позже.
Ссылка на датасет:
0:00 Предварительные настройки
6:06 Spark SQL
8:48 Spark RDD
12:25 Spark GraphFrames
Предупреждение! Код в части Spark GraphFrames на моменте инициализации объекта GraphFrame при запуске на Google Colab выдаёт ошибку, на других платформах при правильной установке graphframes всё работает без ошибок.
1 view
678
265
3 weeks ago 00:16:37 1
Обзор УЗИ аппарата Mindray Consona N7
4 weeks ago 00:25:32 1
2 в1. Покраска и обработка трубочек окрашенных морилкой. Быстрый способ.
1 month ago 01:06:12 3
#746 Молекулярный деструктор, принцип работы. Инопланетные технологии переработки отходов. Гравиметр
1 month ago 00:04:23 1
Candy Dulfer & David A. Stewart - Lily Was Here
1 month ago 00:35:04 1
Лучший телефон за 199$ — обзор iqoo z9 минимум денег МАКСИМУМ возможностей. + сравним с turbo и neo9