Büyük Veri ve Hadoop’a Giriş

Standard

Büyük veri, geleneksel veri işleme uygulamalarının yetersiz olduğu çok büyük ya da karmaşık (yapılandırılmamış) veri setleri için kullanılan bir terimdir. Veri setleri her geçen gün oldukça büyümektedir. Bu büyümeye en büyük etki, ucuz ve çok sayıda ki bilgi üreten çeşitli sensörlerdir. Veri büyümeleriyle ilgili gerçek örnekler[1]:

  • New York Borsası her gün yaklaşık 1 terabayt veri üretmektedir.
  • Facebook yaklaşık 10 milyar fotoğrafı tutmaktadır. Bu 1 petabayt yer kaplamaktadır.
  • Internet Archives(http://www.archive.org) 2 petabayt veri tutmakta ve her ay bu veri kabaca 20 terabayt büyümektedir.
  • Ancestry.com soyağacı sitesi, 2.5 petabayt verisi vardır.
  • İsviçre Cenevre’deki Büyük Hadron çarpıştırıcısı yılda yaklaşık 15 petabaytlık veri üretmektedir.

ŞEKİL 1.2 Hadoop’un çalışması[2]

Bu bilgilere bakıldığında veri çağında yaşanıldığı söylenebilir. Hadoop işte burada ortaya çıkan büyük verileri analiz etmek için çıkan etkili bir çözümdür. Hadoop ile büyük pahalı makineler yerine çok sayıda küçük ucuz makineler kümesi(cluster) kullanılarak hızlı işlem yapmak amaçlanmaktadır. Bunu yapabilmek için geliştirilen MapReduce tekniği yapılacak olan işlemin bu kümedeki işlemcilere dağıtılmasına ve bu düğümlerin(nodeların) paralel olarak çalışmalarına sağlar.

ŞEKİL 1.1 Hadoop kümeleri[2]

Nisan 2008’de Hadoop terabaytlık datayı sıralayarak dünyanın en hızlı sistemi olarak dünya rekoru kırmıştır. 910 tane düğümde çalışan Hadoop, 1 terabayt datayı sadece 209 saniyede sıralamayı başarmıştır. Aynı yılın eylül ayında Google MapReduce implementasyonu 68 saniyede 1 terabayt datayı sıralamıştır. Mayıs 2009 da Yahoo 1 terabayt datayı Hadoop kullanarak 62 saniyede sıralamıştır [1]. Yine Yahoo 2013 yılında Hadoop kullanarak 102.5 TB veriyi 4,328 saniyede 2100 düğüm kullanarak sıralamıştır.


Referanslar
1. Tom White (2012)Hadoop: The Definitive Guide / Tom White.ISBN:978-1-449-31152-0 pg 1,31
2. http://www.glennklockwood.com/data-intensive/Hadoop/overview.html