В этом репозитории содержатся мои отправленные задания для курса «Анализ больших данных MOOC Coursera с использованием Scala и Spark», проведенного Федеральной политехнической школой Лозанны (EPFL) под руководством профессора Хизер К. Миллер.
Манипулирование большими данными, распределенными по кластеру, с использованием функциональных концепций широко распространено в промышленности и, возможно, является одним из первых широко распространенных промышленных применений функциональных идей. Об этом свидетельствует популярность MapReduce и Hadoop, а совсем недавно Apache Spark — быстрой среды распределенных коллекций в памяти, написанной на Scala. В этом курсе мы увидим, как парадигму параллельных данных можно расширить на распределенный случай, используя Spark. Мы подробно рассмотрим модель программирования Spark, стараясь понять, как и когда она отличается от знакомых моделей программирования, таких как параллельные коллекции с общей памятью или последовательные коллекции Scala. На практических примерах в Spark и Scala мы узнаем, когда следует учитывать важные проблемы, связанные с распространением, такие как задержка и сетевая связь, и как их можно эффективно решить для повышения производительности.
Результаты обучения. К концу этого курса вы сможете:
Рекомендуемый опыт: у вас должен быть опыт программирования не менее одного года. Владение Java или C# является идеальным, но также достаточно опыта работы с другими языками, такими как C/C++, Python, Javascript или Ruby. Вы должны иметь некоторое представление об использовании командной строки. Этот курс предназначен для прохождения после параллельного программирования: https://www.coursera.org/learn/parprog1.
Дата начала : 4 января 2022 г.
Дата завершения : 10 января 2022 г.
Неделя : 1
Урок : Использование Scala REPL, Использование инструмента SBT.
Описание : «Цель этого задания — ознакомиться с инфраструктурой и инструментами, необходимыми во время этого занятия. Несмотря на то, что оценка по этому заданию будет исключена из вашей итоговой оценки за курс, важно, чтобы вы выполнили это задание. осторожно."
Оценка : 10/10
Неделя : 1
Урок : Основы RDD Spark.
Описание : «В этом задании мы будем использовать наши полнотекстовые данные из Википедии, чтобы получить элементарную метрику популярности языка программирования, чтобы увидеть, имеют ли наши рейтинги на основе Википедии какое-либо отношение к популярному Red Monk. рейтинги».
Оценка : 10/10
Неделя : 2 (двухнедельное задание)
Урок : Операции сокращения и распределенные пары ключ-значение
Описание : «Общая цель этого задания — реализовать распределенный алгоритм k-средних, который кластеризует сообщения на популярной платформе вопросов и ответов StackOverflow в соответствии с их рейтингом. Более того, эта кластеризация должна выполняться параллельно для разных языков программирования, а результаты следует сравнивать».
Оценка : 10/10
Неделя : 4
Урок : SQL, фреймы данных и наборы данных
Описание : «Наша цель — выявить три группы занятий: первичные потребности (сон и прием пищи), работа, другие (досуг). А затем понаблюдать, как люди распределяют свое время между этими тремя видами деятельности, и сможем ли мы увидеть различия между мужчинами и женщинами, работающими и безработными, а также молодыми (до 22 лет), активными (от 22 до 55 лет) и пожилыми людьми».
Оценка : 10/10
Для работы кода файлы ресурсов необходимо разархивировать.