このリポジトリには、ローザンヌ連邦工科大学 (EPFL) によって与えられ、ヘザー C. ミラー教授によって指導された、Scala と Spark を使用した Coursera MOOC ビッグデータ分析のために私が提出した課題が含まれています。
関数概念を使用してクラスター上に分散されたビッグ データを操作することは産業界で蔓延しており、これはおそらく関数概念の最初の広範な産業用途の 1 つです。これは、MapReduce と Hadoop、そして最近では Scala で書かれた高速なインメモリ分散コレクション フレームワークである Apache Spark の人気によって証明されています。このコースでは、Spark を全体的に使用して、データ並列パラダイムを分散ケースにどのように拡張できるかを見ていきます。 Spark のプログラミング モデルについて詳しく説明し、共有メモリの並列コレクションや順次 Scala コレクションなどのよく知られたプログラミング モデルとどのように異なるのか、またどのような点が異なるのかを注意深く理解します。 Spark と Scala の実践的な例を通じて、レイテンシーやネットワーク通信などの配布に関連する重要な問題をいつ考慮する必要があるか、またパフォーマンスを向上させるためにそれらに効果的に対処する方法を学びます。
学習の成果。このコースを終了するまでに、次のことができるようになります。
推奨される背景: 少なくとも 1 年のプログラミング経験が必要です。 Java または C# に習熟していることが理想的ですが、C/C++、Python、JavaScript、Ruby などの他の言語の経験もあれば十分です。コマンド ラインの使用にある程度慣れている必要があります。このコースは、並列プログラミングの後に受講することを目的としています: https://www.coursera.org/learn/parprog1。
開始日: 2022 年 1 月 4 日
完了日: 2022 年 1 月 10 日
週: 1
レッスン: Scala REPL の使用、SBT ツールの使用
説明: 「この課題の目標は、このクラスで必要なインフラストラクチャとツールに慣れることです。この課題の成績はコースの最終成績から除外されますが、この課題に取り組むことが重要です」気をつけて。"
グレード: 10 / 10
週: 1
レッスン: Spark の RDD の基本
説明: 「この課題では、ウィキペディアの全文データを使用して、ウィキペディアに基づくランキングが人気のレッドモンクと何らかの関連があるかどうかを確認するために、プログラミング言語の人気度に関する基本的な指標を生成します。ランキング。」
グレード: 10 / 10
週: 2 (2 週間の課題)
レッスン: リダクション操作と分散キーと値のペア
説明: 「この課題の全体的な目標は、人気のある質問回答プラットフォーム StackOverflow 上の投稿をスコアに応じてクラスタリングする分散 K 平均法アルゴリズムを実装することです。さらに、このクラスタリングはさまざまなプログラミング言語に対して並行して実行する必要があり、結果を比較する必要があります。」
グレード: 10 / 10
週: 4
レッスン: SQL、データフレーム、およびデータセット
説明: 「私たちの目標は、主要なニーズ (睡眠と食事)、仕事、その他 (レジャー) の 3 つの活動グループを特定することです。そして、人々がこれら 3 種類の活動の間にどのように時間を配分しているかを観察することです。男性と女性、就業者と失業者、若者(22歳未満)、活動中(22歳から55歳)、高齢者の違い。」
グレード: 10 / 10
コードが機能するには、リソース ファイルを解凍する必要があります。