Repositori ini berisi tugas yang saya kirimkan untuk Analisis Big Data MOOC Coursera dengan Scala dan Spark, yang diberikan oleh École Polytechnique Fédérale de Lausanne (EPFL), dan diajar oleh Prof. Heather C. Miller.
Memanipulasi data besar yang didistribusikan melalui sebuah klaster menggunakan konsep fungsional sedang merajalela di industri, dan bisa dibilang merupakan salah satu penggunaan ide fungsional pertama yang tersebar luas di industri. Hal ini dibuktikan dengan popularitas MapReduce dan Hadoop, dan yang terbaru adalah Apache Spark, kerangka kerja koleksi terdistribusi dalam memori yang cepat dan ditulis dalam Scala. Dalam kursus ini, kita akan melihat bagaimana paradigma paralel data dapat diperluas ke kasus terdistribusi, menggunakan Spark secara menyeluruh. Kami akan membahas model pemrograman Spark secara mendetail, dengan berhati-hati untuk memahami bagaimana dan kapan model tersebut berbeda dari model pemrograman yang sudah dikenal, seperti koleksi paralel memori bersama atau koleksi Scala berurutan. Melalui contoh langsung di Spark dan Scala, kita akan mempelajari kapan masalah penting terkait distribusi seperti latensi dan komunikasi jaringan harus dipertimbangkan dan bagaimana masalah tersebut dapat ditangani secara efektif untuk meningkatkan kinerja.
Hasil belajar. Pada akhir kursus ini Anda akan dapat:
Latar belakang yang disarankan: Anda harus memiliki setidaknya satu tahun pengalaman pemrograman. Kemahiran dengan Java atau C# sangat ideal, tetapi pengalaman dengan bahasa lain seperti C/C++, Python, Javascript atau Ruby juga cukup. Anda harus terbiasa menggunakan baris perintah. Kursus ini dimaksudkan untuk diambil setelah Pemrograman Paralel: https://www.coursera.org/learn/parprog1.
Tanggal Dimulai : 4 Januari 2022
Tanggal Selesai : 10 Januari 2022
Minggu : 1
Pelajaran : Menggunakan Scala REPL, Menggunakan alat SBT
Deskripsi : "Tujuan dari tugas ini adalah untuk membiasakan diri Anda dengan infrastruktur dan alat yang dibutuhkan selama kelas ini. Meskipun nilai dalam tugas ini akan dikecualikan dari nilai akhir kursus Anda, penting bagi Anda untuk mengerjakan tugas ini dengan hati-hati."
Nilai : 10/10
Minggu : 1
Pelajaran : Dasar-dasar RDD Spark
Deskripsi : "Dalam tugas ini, kami akan menggunakan data teks lengkap dari Wikipedia untuk menghasilkan metrik dasar tentang seberapa populer suatu bahasa pemrograman, dalam upaya untuk melihat apakah peringkat kami yang berbasis di Wikipedia mempunyai hubungan dengan Red Monk yang populer. peringkat."
Nilai : 10/10
Minggu : 2 (tugas selama dua minggu)
Pelajaran : Operasi Reduksi & Pasangan Nilai Kunci Terdistribusi
Deskripsi : "Tujuan keseluruhan dari tugas ini adalah untuk mengimplementasikan algoritma k-means terdistribusi yang mengelompokkan postingan pada platform tanya jawab populer StackOverflow berdasarkan skornya. Selain itu, pengelompokan ini harus dijalankan secara paralel untuk bahasa pemrograman yang berbeda, dan hasilnya harus dibandingkan."
Nilai : 10/10
Minggu : 4
Pelajaran : SQL, Kerangka Data, dan Kumpulan Data
Deskripsi : “Tujuan kami adalah untuk mengidentifikasi tiga kelompok kegiatan: kebutuhan primer (tidur dan makan), bekerja, lainnya (waktu luang). Dan kemudian mengamati bagaimana orang mengalokasikan waktu mereka di antara ketiga jenis kegiatan tersebut, dan apakah kita dapat melihat perbedaan antara laki-laki dan perempuan, orang yang bekerja dan yang menganggur, dan orang muda (kurang dari 22 tahun), aktif (antara 22 dan 55 tahun) dan orang tua.”
Nilai : 10/10
File sumber daya harus dibuka ritsletingnya agar kode dapat berfungsi.