Big Data Analysis with Scala and Spark Загрузка — Big Data Analysis with Scala and Spark

Big Data Analysis with Scala and Spark

Другой исходный код

Скачать

Анализ больших данных с помощью Scala и Spark (Coursera)

В этом репозитории содержатся мои отправленные задания для курса «Анализ больших данных MOOC Coursera с использованием Scala и Spark», проведенного Федеральной политехнической школой Лозанны (EPFL) под руководством профессора Хизер К. Миллер.

Об этом курсе

Манипулирование большими данными, распределенными по кластеру, с использованием функциональных концепций широко распространено в промышленности и, возможно, является одним из первых широко распространенных промышленных применений функциональных идей. Об этом свидетельствует популярность MapReduce и Hadoop, а совсем недавно Apache Spark — быстрой среды распределенных коллекций в памяти, написанной на Scala. В этом курсе мы увидим, как парадигму параллельных данных можно расширить на распределенный случай, используя Spark. Мы подробно рассмотрим модель программирования Spark, стараясь понять, как и когда она отличается от знакомых моделей программирования, таких как параллельные коллекции с общей памятью или последовательные коллекции Scala. На практических примерах в Spark и Scala мы узнаем, когда следует учитывать важные проблемы, связанные с распространением, такие как задержка и сетевая связь, и как их можно эффективно решить для повышения производительности.

Результаты обучения. К концу этого курса вы сможете:

прочитать данные из постоянного хранилища и загрузить их в Apache Spark,
манипулировать данными с помощью Spark и Scala,
экспресс-алгоритмы анализа данных в функциональном стиле,
узнаете, как избежать перемешиваний и перерасчетов в Spark,

Рекомендуемый опыт: у вас должен быть опыт программирования не менее одного года. Владение Java или C# является идеальным, но также достаточно опыта работы с другими языками, такими как C/C++, Python, Javascript или Ruby. Вы должны иметь некоторое представление об использовании командной строки. Этот курс предназначен для прохождения после параллельного программирования: https://www.coursera.org/learn/parprog1.

Хронология

Дата начала : 4 января 2022 г.
Дата завершения : 10 января 2022 г.

Сертификат

Задания

Практическое задание по программированию: пример

Неделя : 1
Урок : Использование Scala REPL, Использование инструмента SBT.
Описание : «Цель этого задания — ознакомиться с инфраструктурой и инструментами, необходимыми во время этого занятия. Несмотря на то, что оценка по этому заданию будет исключена из вашей итоговой оценки за курс, важно, чтобы вы выполнили это задание. осторожно."
Оценка : 10/10

Задание по программированию 1: Википедия

Неделя : 1
Урок : Основы RDD Spark.
Описание : «В этом задании мы будем использовать наши полнотекстовые данные из Википедии, чтобы получить элементарную метрику популярности языка программирования, чтобы увидеть, имеют ли наши рейтинги на основе Википедии какое-либо отношение к популярному Red Monk. рейтинги».
Оценка : 10/10

Задание по программированию 2: StackOverflow

Неделя : 2 (двухнедельное задание)
Урок : Операции сокращения и распределенные пары ключ-значение
Описание : «Общая цель этого задания — реализовать распределенный алгоритм k-средних, который кластеризует сообщения на популярной платформе вопросов и ответов StackOverflow в соответствии с их рейтингом. Более того, эта кластеризация должна выполняться параллельно для разных языков программирования, а результаты следует сравнивать».
Оценка : 10/10

Задание по программированию 3: Использование времени

Неделя : 4
Урок : SQL, фреймы данных и наборы данных
Описание : «Наша цель — выявить три группы занятий: первичные потребности (сон и прием пищи), работа, другие (досуг). А затем понаблюдать, как люди распределяют свое время между этими тремя видами деятельности, и сможем ли мы увидеть различия между мужчинами и женщинами, работающими и безработными, а также молодыми (до 22 лет), активными (от 22 до 55 лет) и пожилыми людьми».
Оценка : 10/10

Примечание

Для работы кода файлы ресурсов необходимо разархивировать.

Отказ от ответственности

Авторские права на все материалы в этом репозитории принадлежат EPFL и Coursera и могут использоваться или распространяться только в образовательных целях. Вы не имеете права использовать или распространять их в коммерческих целях.
Мои решения викторин и заданий предназначены только для справки. Пожалуйста, не копируйте какую-либо часть кода/ответа напрямую.

Расширять

Дополнительная информация