Büyük Veri: HADOOP Projesi Nedir?

 

Büyük verilerin oluşmasıyla beraber, verilerin işlenmesi, kullanılması, depolanması, güvenirliği gibi temel sorunlar oluşmaya başladı. Özellikle devasa veriler bulunduran arama motorları, bu duruma bir çözüm bulmak zorunda kaldılar.


Büyük Veri (Big Data)’nın gelişimi teknoloji dünyasında daha önceden bilinmeyen yeni alanlar ve çözümler yarattı. Yakın geçmişte, sunucuların müthiş büyüklükteki veriyi gerçek zamanlı olarak işlemesi, sıralaması ve depolaması gerektiği görüldü. Bu ihtiyaca bir çözüm olarak, büyük veri setlerini kolayca işleyebilen Apache Hadoop doğdu.

Bu projenin tohumları esasında Google’ın, 2003 yılında kendi içerisinde oluşturmuş olduğu dağıtık mimarideki dosya sistemi olan GFS’yi (Google File System – Google Dosyalama Sistemi) duyurmasıyla atıldı. Ardından Google, veriler üzerinde uyguladığı yöntem olan MapReduce programlama modelini açıklayan çalışmasını yayınladı. Çalışmanın yayınlanmasıyla birlikte bilim çevreleri tarafından da takip edilen gelişmeler, özellikle dosyalama sisteminin dağıtık olması ve üzerinde MapReduce ile işlemlerin yapılması, büyük verilerle gelen sorunların çözümü açısından önemli bir gelişme olarak görüldü.

Doug Cutting’in ve Arkadaşlarının Katkısı


Yılların geçmesiyle beraber gelişmeleri takip eden Doug Cutting ve arkadaşları, dağıtık dosyalama sistemini ve MapReduce uygulamasını Nutch adındaki arama motorunda kullanarak üst seviyede bir performans elde ettiler.

Açık kaynak kodlu bu projeye HADOOP ismi verildi.

Nucth arama motoru ve yeni geliştirilmiş olan HADOOP kütüphanesi, Apache çatısı altında buluşmuştu. Diğer yandan GFS ismi de HADOOP isminin oluşmasıyla HDFS (Hadoop Distributed File System – Hadoop Dağıtık Dosyalama Sistemi) olarak değiştirildi.

Yahoo, Google’ın Rakibi Olarak Piyasadaki Yerini Alıyor


2006 yılında Doug Cutting, Yahoo firmasıyla anlaşarak HADOOP projesinin ilk uygulamalarından birini, Yahoo sitesinde arama motoru oluşturarak gerçekleştirmiş oldu. Bu gelişmeyle beraber aynı zamanda arama motoru camiasında Yahoo ve Google rakip haline geldi.

HADOOP Çağına göre üst segmentte olmayan bilgisayarlar ile Cluster’lar (küme) oluşturarak, çok daha maliyetli ve yüksek özellikli bilgisayarlardan daha iyi performans sağlamaktaydı. Bu da Yahoo ve Google için en önemli tercih sebebi olmuştu.

İlk zamanlar sadece arama motorları ve veri barındıran büyük firmalar tarafından kullanılan HADOOP, büyük verinin de yaygınlaşmasıyla günümüzde oldukça yaygın kullanılan bir proje haline geldi.

HADOOP Cluster’ları eşzamanlı ve paralel çalışan yatay bir mimariden oluşmakta olduğu için ihtiyaç halinde yine üst segment olmayan maliyeti az olan bilgisayarlara ilave edilerek güçlendirilebilmekteydi.

HADOOP-1 ve HADOOP-2 Projesinin Farkı


HADOOP ilk ortaya çıkıp proje haline geldiğinde temel olarak 2 bileşenden oluşmaktaydı: HGFS ve MapReduce. Proje bu haliyle HADOOP-1 olarak anılmaya başlandı. HADOOP-1’de kaynak erişimi, verilerin işlenmesi, sonuçlarının çıkarılması gibi tüm işlemler MapReduce ile yapılmaktaydı.

Daha sonra yine Apache yazılımcıları tarafından geliştirilen açık kaynak kodlu olan YARN uygulaması kaynak yönetimini MapReduce üzerinden alarak HADOOP’un performansını çok daha iyi duruma getirdi. YARN’ın geliştirilmesi ve projeye dahil edilmesiyle proje HADOOP-2 olarak isimlendirildi.

Big Data İçin HADOOP Neden Önemli?


Hadoop, büyük veri işleme için harika bir çözümdür ve büyük verilerle uğraşan işletmeler için önemli bir araçtır. Farklı formatlardaki her türden veriyi hızlı bir şekilde depolama ve işleme yeteneğine sahiptir.

  • Hadoop’un dağıtılmış işleme modeli, büyük verileri hızlı bir şekilde işler. Ne kadar çok bilgi işlem düğümü kullanırsanız, o kadar fazla işlem gücüne sahip olursunuz.
  • Donanım arızasına karşı korumalıdır. Bir düğüm arızalanırsa, işler otomatik olarak diğer düğümlere yeniden yönlendirilir. İşlemin başarısız olmadığından emin olunur. Tüm verilerin birden çok kopyası otomatik olarak saklanır.
  • Geleneksel ilişkisel veri tabanlarından farklı olarak, verileri depolamadan önce ön işlem yapmanıza gerek yoktur. İstediğiniz kadar veri depolayabilir ve daha sonra nasıl kullanacağınıza karar verebilirsiniz. Bu, metin, resim ve video gibi yapılandırılmamış veriler için dahi geçerlidir.
  • Maliyeti düşüktür. Açık kaynak framework’u ücretsizdir. Büyük miktarda veriyi depolamak için sıradan donanımları kullanır.
  • Büyütmeye elverişlidir. Daha fazla veriyi işlemek için sisteminize düğümler ekleyerek kolayca büyütebilirsiniz.

Kaynak: https://teknomers.com/2021/12/18/hadoop-nedir-tarihsel-gelisimi-ve-arama-motorlari/

https://www.gtech.com.tr/hadoop-nedir/

Yazımızı Nasıl Buldunuz?

İlk yorum yapan olun

Bir yanıt bırakın

E-posta hesabınız yayımlanmayacak.


*