HADOOP
Apa itu Hadoop?
Apache Hadoop adalah kerangka kerja perangkat lunak open source yang digunakan untuk mengembangkan aplikasi pemrosesan data yang dijalankan dalam lingkungan komputasi terdistribusi.
Aplikasi yang dibangun menggunakan HADOOP dijalankan pada kumpulan data besar yang didistribusikan di seluruh kelompok komputer komoditas. Komputer komoditas murah dan tersedia secara luas.Ini terutama berguna untuk mencapai daya komputasi yang lebih besar dengan biaya rendah.
Mirip dengan data yang berada dalam sistem file lokal dari sistem komputer pribadi,di Hadoop,data berada dalam sistem file terdistribusi yang disebut sebagai sistem File Terdistribusi Hadoop. Model pemrosesan didasarkan pada konsep 'Lokalitas Data' di mana logika komputasi dikirim ke node cluster(server)yang berisi data. Logika komputasi ini tidak lain adalah versi kompilasi dari program yang ditulis dalam bahasa tingkat tinggi seperti Java.Program semacam itu,memproses data yang disimpan di Hadoop HDFS.
Cluster komputer terdiri dari satu set beberapa unit pemrosesan(disk penyimpanan + prosesor)yang terhubung satu sama lain dan bertindak sebagai satu sistem.
Ekosistem dan Komponen Hadoop
Diagram di bawah ini menunjukkan berbagai komponen dalam ekosistem Hadoop.
Apache Hadoop terdiri dari dua sub-proyek
Hadoop MapReduce : MapReduce adalah model komputasi dan kerangka kerja perangkat lunak untuk menulis aplikasi yang dijalankan di Hadoop.Program MapReduce ini mampu memproses data yang sangat besar secara paralel pada kelompok besar node komputasi.
HDFS (Hadoop Distributed File System) : HDFS menangani bagian penyimpanan aplikasi Hadoop.Aplikasi MapReduce mengkonsumsi data dari HDFS.HDFS membuat beberapa replika blok data dan mendistribusikannya pada node komputasi dalam sebuah cluster.Distribusi ini memungkinkan komputasi yang andal dan sangat cepat.
Meskipun Hadoop terkenal dengan MapReduce dan sistem file terdistribusinya - HDFS,istilah ini juga digunakan untuk keluarga proyek terkait yang berada di bawah payung komputasi terdistribusi dan pemrosesan data skala besar.Proyek terkait Hadoop lainnya di Apache termasuk Hive,HBase, Mahout,Sqoop,Flume,dan ZooKeeper.
Arsitekture Hadoop
Hadoop memiliki Arsitektur Master-Slave untuk penyimpanan data dan pemrosesan data terdistribusi menggunakan metode MapReduce dan HDFS.
NamaNode :
NameNode mewakili setiap file dan direktori yang digunakan dalam namespace
DataNode :
DataNode membantu anda mengelola status node HDFS dan memungkinkan anda berinteraksi dengan blok
Node Utama :
Node master memungkinkan anda untuk melakukan pemrosesan data paralel menggunakan Hadoop MapReduce.
Slave Node :
Slave Node adalah mesin tambahan di cluster Hadoop yang memungkinkan anda untuk menyimpan data untuk melakukan perhitungan yang kompleks.Selain itu,semua node slave dilengkapi dengan Task Tracker dan DataNode.Ini memungkinkan anda untuk menyinkronkan proses dengan NameNode dan Job Tracker masing-masing.
Di Hadoop, sistem master atau slave dapat diatur di cloud atau on-premise.
Bersambung ...
Post a Comment