Hadoop nedir? (Büyük Veri ve Hadoop’a Giriş 2)

Standard

Hadoop, sıradan sunuculardan (commodity hardware) oluşan küme (cluster) üzerinde büyük verileri işlemek amaçlı uygulamaları çalıştıran ve Hadoop Distributed File System (HDFS) olarak adlandırılan bir dağıtık dosya sistemi ile Hadoop MapReduce özelliklerini bir araya getiren, Java ile geliştirilmiş açık kaynaklı bir kütüphanedir. Daha yalın bir dille anlatmak gerekirse, Hadoop, HDFS ve MapReduce bileşenlerinden oluşan bir yazılımdır.[1]

2005 yılında Mike Cafarella ve Doug Cutting (yazılıma çocuğunun oyuncak filinin adını vermiştir) tarafından oluşturulan Hadoop, başlangıçta web ile ilgili arama verileri için tasarlanmıştı. Bugün Hadoop, her çeşit kuruluş ve endüstride kullanılan Apache Software Foundation’ın açık kaynak kodlu ve topluluk tarafından oluşturulan bir projesidir.[2]

HDFS(Hadoop Distributed File System): Dağıtık dosya sistemi, Hadoop kümeleri içinde yüksek performanslı erişim imkânı sunan Hadoop uygulamaları tarafından kullanılan birincil depolama sistemidir. Hadoop çok sayıda sıradan sunuculara kurulacağı için server hataları oldukça fazla olabilir. HDFS geliştirilirken temel amaçlardan biri bu hataların mümkün mertebe tolere edebilmek için oluşturulur. Bu sayede bilgisayar düğümleri(node) arasındaki veri transferi ne kadar hızlı olsa da sistemin bu hatalardan sistem etkilenmeden çalışmaktadır.

Hadoop’ta 4 tip node(düğüm) bulunur. Bu düğümler:

  1. Name Node
  2. Data Node
  3. Job Tracker
  4. Task Tracker

    ŞEKİL 2.1 Hadoop’un Node(Düğümleri)

Görevlerin çalışmasını kontrol eden iki tip node vardır: jobtracker ve tasktracker dır. Jobtracker tasktracker da çalışacak bütün jobların çalışmasını kontrol eder. Tasktracker ise görevleri çalıştırarak, ilerleme raporlarını jobtracker’a gönderir. Jobtracker her job için genel ilerlemeyi tutar. Eğer task(görev) başarısız olursa jobtracker başka bir tasktracker da çalışması için programlayabilir.[1]

NameNode, filesystem namespace(dosya sistemi) kontrol eder. Dosya sistemi ağaçlarını ve bu ağaçlarda bütün dosyaların ve klasörlerin metadatalarını bakımlarını sürdürür. DataNode, client veya namenode tarafından istendiği takdir de blokları tutmak veya getirmekte görevlidirler. Düzenli olarak namenode’a hangi blokları tuttuklarını raporlar.

hadoopnodes

Referanslar
1. http://devveri.com/Hadoop-nedir
2. https://azure.microsoft.com/tr-tr/solutions/Hadoop/

Leave a Reply

Your email address will not be published. Required fields are marked *