Kenalan dengan Tutorial Simple Menggunakan Spark SQL
Kenalan dengan Tutorial Simple Menggunakan Spark SQL
APACHE SPARK
Apa itu Apache Spark? Apache Spark merupakan sebuah framework yang dapat digunakan untuk mengakses data dari berbagai sumber yang berbeda, kemudian diproses dan disimpan ke dalam penyimpanan data untuk analisis. Fitur-fitur yang dimiliki memungkinkan Data Engineer untuk membangun aplikasi pemrosesan Big Data.
Beberapa kelebihan Apache Spark yaitu performa lebih cepat dibandingkan framework serupa lainnya, mudah digunakan, dapat dituliskan dalam bahasa pemrograman Python, R, Java, dan Scala, serta dilengkapi dengan SQL Library, Streaming, dan Graph Analysis yang memudahkan analisis data.
KOMPONEN APACHE SPARK
Sebelumnya telah diketahui bahwa Apache Spark ini tergolong framework yang pemrosesannya cepat serta mudah digunakan. Di belakang itu, terdapat beberapa komponen pendukung yang ada pada Apache Spark antara lain Bahasa Pemrograman (Scala, R, Java, Python); Library (Spark SQL, MLlib, Graphx, Streaming), Engine (Spark Core), Cluster Management (Hadoop Yarn, Apache Mesos, Spark Scheduler).
SPARK SQL
Apa itu Spark SQL? Spark SQL adalah library yang ditujukan untuk memahami pemrosesan data secara struktural yang terbentuk di dalam inti dari Apache Spark, yang mana kegunaan utamanya adalah untuk memproses data struktural.
Spark SQL sendiri memiliki library dataframes dan integrated with multiple data sources (Hadoop, Hive, Cassandra dan HBase).
PERAN DAN FITUR SQL SPARK
Setiap modul atau library memiliki peran dan fitur masing-masing. Begitu pula SQL Spark yang memiliki beberapa peran berikut:
Sumber DataFrame API: kumpulan pustaka untuk bekerja dengan tabel data
DataFrame API: membantu menentukan Frame Data yang berisi baris dan kolom
Catalyst Optimizer: kerangka kerja optimasi yang diperluas dengan A SQL Engine dan Command Line Interface.
Membuat file Jupyter Notebook.
Membuat data frame dari file csv.
Menjalankan query pada dataframe.
Sebelum menjalankan Spark SQL, ada beberapa prasyarat yang harus kalian penuhi. Prasyarat yang perlu kalian siapkan adalah:
Pastikan kalian mengedit URL https://SPARKCLUSTER.azurehdinsight.net/jupyter dengan mengganti SPARKCLUSTER dengan nama cluster Spark kalian. Kemudian masukkan URL yang diedit di browser web. Jika diminta, masukkan info masuk kluster untuk kluster.
Dari halaman web Jupyter, Untuk kluster Spark 2.4, Pilih Baru>PySpark untuk membuat notebook. Untuk rilis Spark 3.1, pilih Baru>PySpark3 untuk membuat notebook karena kernel PySpark tidak lagi tersedia di Spark 3.1.
Kemudian siapkan data frame dengan format .csv. Kemudian kalian perlu menjalankan kode:
from pyspark.sql import *
from pyspark.sql.types import *
Hingga kalian mendapat output seperti :
Setelah itu kalian dapat menjalankan kode untuk membuat data frame dan tabel.
Untuk menjalankan querynya kalian dapat membuat query sebagai berikut:
SELECT column FROM table WHERE kondisi;
Memahami bahasa SQL merupakan hal wajib bagi praktisi data. SQL akan sering digunakan untuk pengelolaan dan analisis data. Bagi pemula bisa mulai belajar perintah-perintah dasar pada SQL seperti mengambil data dari tabel, membuat database, menghapus data kosong, dan lain sebagainya. Mungkin terlihat remeh, namun query tersebut akan sering digunakan ketika bekerja dengan data.
0 Response to "Kenalan dengan Tutorial Simple Menggunakan Spark SQL"
Post a Comment