SQOOP(2)
Mengapa kita membutuhkan Sqoop?
Masalah Utama:
1.Pemuatan data menggunakan ScriptPendekatan tradisional menggunakan skrip untuk memuat data tidak cocok untuk memuat data massal ke hadoop; pendekatan ini tidak efisien dan sangat memakan waktu.
2.Akses langsung ke data eksternal melalui aplikasi Map-Reduce
Menyediakan akses langsung ke data yang berada di sistem eksternal(tanpa memuat ke hadoop) untuk aplikasi pereduksi peta memperumit aplikasi ini. Jadi, pendekatan ini tidak mungkin dilakukan.
3.Selain memiliki kemampuan untuk bekerja dengan data yang sangat besar, adoop dapat bekerja dengan data dalam beberapa bentuk yang berbeda. Jadi, untuk memuat data heterogen tersebut ke hadoop, alat yang berbeda telah dikembangkan. Sqoop dan Flume adalah dua alat pemuatan data tersebut.
Selanjutnya dalam tutorial Sqoop ini, kita akan belajar tentang perbedaan antara Sqoop, Flume dan HDFS.
Sqoop vs Flume vs HDFS in Hadoop
Sqoop
- Sqoop digunakan untuk mengimpor data dari sumber data terstruktur seperti RDBMS.
- Sqoop memiliki arsitektur berbasis konektor. Konektor tahu cara menghubungkan ke sumber data masing-masing dan mengambil data.
- HDFS adalah tujuan untuk mengimpor data menggunakan Sqoop.
- Pemuatan data Sqoop tidak didorong oleh peristiwa.
- Untuk mengimpor data dari sumber data terstruktur, seseorang harus menggunakan perintah Sqoop saja, karena konektornya tahu cara berinteraksi dengan sumber data terstruktur dan mengambil data darinya.
Flume
- Flume digunakan untuk memindahkan data streaming massal ke HDFS.
- Flume memiliki arsitektur berbasis agen. Di sini, sebuah kode ditulis (yang disebut sebagai 'agen') yang menangani pengambilan data.
- Data mengalir ke HDFS melalui nol atau lebih saluran.
- Beban data flume dapat didorong oleh suatu peristiwa.
- Untuk memuat data streaming seperti tweet yang dihasilkan di Twitter atau file log dari server web, flume harus digunakan. Agen flume dibuat untuk mengambil data streaming.
HDFS
- HDFS adalah sistem file terdistribusi yang digunakan oleh ekosistem hadoop untuk menyimpan data.
- HDFS memiliki arsitektur terdistribusi dimana data didistribusikan di beberapa node data.
- HDFS adalah tujuan akhir untuk penyimpanan data.
- HDFS hanya menyimpan data yang diberikan kepadanya dengan cara apa pun.
- HDFS memiliki perintah shell bawaannya sendiri untuk menyimpan data ke dalamnya. HDFS tidak dapat mengimpor data streaming.
Post a Comment