-->

Kenalan dengan Tutorial Simple Menggunakan Spark SQL

   

Kenalan dengan Tutorial Simple Menggunakan Spark SQL


APACHE SPARK

    Apa itu Apache Spark? Apache Spark merupakan sebuah framework yang dapat digunakan untuk mengakses data dari berbagai sumber yang berbeda, kemudian diproses dan disimpan ke dalam penyimpanan data untuk analisis. Fitur-fitur yang dimiliki memungkinkan Data Engineer untuk membangun aplikasi pemrosesan Big Data.

    Beberapa kelebihan Apache Spark yaitu performa lebih cepat dibandingkan framework serupa lainnya, mudah digunakan, dapat dituliskan dalam bahasa pemrograman Python, R, Java, dan Scala, serta dilengkapi dengan SQL Library, Streaming, dan Graph Analysis yang memudahkan analisis data.


KOMPONEN APACHE SPARK


    Sebelumnya telah diketahui bahwa Apache Spark ini tergolong framework yang pemrosesannya cepat serta mudah digunakan. Di belakang itu, terdapat beberapa komponen pendukung yang ada pada Apache Spark antara lain Bahasa Pemrograman (Scala, R, Java, Python); Library (Spark SQL, MLlib, Graphx, Streaming), Engine (Spark Core), Cluster Management (Hadoop Yarn, Apache Mesos, Spark Scheduler).


SPARK SQL

    Apa itu Spark SQL? Spark SQL adalah library yang ditujukan untuk memahami pemrosesan data secara struktural yang terbentuk di dalam inti dari Apache Spark, yang mana kegunaan utamanya adalah untuk memproses data struktural. 

    Spark SQL menggunakan antarmuka seperti SQL untuk berinteraksi dengan data dari berbagai format seperti CSV, JSON, Parket, hingga ke berbagai database engine seperti MySQL dan SQL Server.

Spark SQL sendiri memiliki library dataframes dan integrated with multiple data sources (Hadoop, Hive, Cassandra dan HBase).


PERAN DAN FITUR SQL SPARK

    Setiap modul atau library memiliki peran dan fitur masing-masing. Begitu pula SQL Spark yang memiliki beberapa peran berikut:

  • Sumber DataFrame API: kumpulan pustaka untuk bekerja dengan tabel data

  • DataFrame API: membantu menentukan Frame Data yang berisi baris dan kolom

  • Catalyst Optimizer: kerangka kerja optimasi yang diperluas dengan A SQL Engine dan Command Line Interface.

    Selain itu, terdapat beberapa fitur SQL Spark yang akan membantu seperti 1) Integrasi dengan Spark, 2) Penyeragaman akses data, 3) Kompatibilitas dengan Hive, 4) Konektivitas standar dengan alat bisnis intelegent, 5) Fungsi buatan pengguna.

SPARK SQL TUTORIAL

    Seperti yang telah diketahui bahwa Spark SQL merupakan sebuah library yang dapat digunakan untuk memahami pemrosesan data, maka pada bagian ini kita akan mengenali sedikit langkah menggunakan Spark SQL. Beberapa langkah berikut ini merupakan gambaran atau langkah umum menggunakan Spark SQL Tutorial:
  • Membuat file Jupyter Notebook.

  • Membuat data frame dari file csv.

  • Menjalankan query pada dataframe.


Sebelum menjalankan Spark SQL, ada beberapa prasyarat yang harus kalian penuhi. Prasyarat yang perlu kalian siapkan adalah:

  • Pastikan kalian mengedit URL https://SPARKCLUSTER.azurehdinsight.net/jupyter dengan mengganti SPARKCLUSTER dengan nama cluster Spark kalian. Kemudian masukkan URL yang diedit di browser web. Jika diminta, masukkan info masuk kluster untuk kluster.

  • Dari halaman web Jupyter, Untuk kluster Spark 2.4, Pilih Baru>PySpark untuk membuat notebook. Untuk rilis Spark 3.1, pilih Baru>PySpark3 untuk membuat notebook karena kernel PySpark tidak lagi tersedia di Spark 3.1.

    
  • Kemudian siapkan data frame dengan format .csv. Kemudian kalian perlu menjalankan kode:

    from pyspark.sql import *
    from pyspark.sql.types import *
  • Hingga kalian mendapat output seperti :

   
  • Setelah itu kalian dapat menjalankan kode untuk membuat data frame dan tabel.


Untuk menjalankan querynya kalian dapat membuat query sebagai berikut:

SELECT column FROM table WHERE kondisi;

    Memahami bahasa SQL merupakan hal wajib bagi praktisi data. SQL akan sering digunakan untuk pengelolaan dan analisis data. Bagi pemula bisa mulai belajar perintah-perintah dasar pada SQL seperti mengambil data dari tabel, membuat database, menghapus data kosong, dan lain sebagainya. Mungkin terlihat remeh, namun query tersebut akan sering digunakan ketika bekerja dengan data.







0 Response to "Kenalan dengan Tutorial Simple Menggunakan Spark SQL"

Post a Comment

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel