Cloudera Nedir?

Cloudera ürünün ne olduğunu tanımlamadan önce iki temel kavramdan bahsetmek gerekir. Bunlar big data ve data science kavramlarıdır.

Big Data

Big Data mimarisi büyük ölçekli düzensiz verinin depolanıp, bu veriden anlamlı sonuç ve analizler
elde etmek için geliştirilmiştir. Mimarinin temelinde Hadoop bulunur. Büyük veri dosyalarının HDFS üzerinde depolanması işleminden sonra, ekosistemde yer alan diğer analiz ve veri düzenleme yazılımları kullanılarak analiz işlemleri gerçekleştirilir.

Big Data mimarisi’nin temelinde bulunan Hadoop, dağıtık mimaride (Distributed Architecture) ve
küme yapısında (Cluster) verinin depolanmasını sağlar. Peki cluster mimarisi nedir? Küçük kaynaklara sahip birden çok sunucunun bir arada ve koordinasyon içerisinde hizmet verdiği küme mimarisine Distributed
Cluster mimarisi adı verilir. Hadoop Mimarisi hakkında detaylı anlatıma linkten erişebilirsiniz.

Peki distributed cluster kavramının avantajları nelerdir diye bakacak olursak;
Temel avantajlar yüksek erişilebilirlik ve kolay ölçeklendirebilirlik olarak gösterilebilir. Yüksek erişilebilirlik (High Availability) clusterda yer alan node’lardan bir veya bir kaç tanesinin hizmet veremediği anlarda, son kullanıcıya verilen hizmette bir kesinti olmaması prensibidir. Kolay ölçeklendirilebilirlik (Scalability) ise cluster kaynaklarının maksimum sınırlara dayandığında, cluster’a kolayca yeni kaynak eklenmesi prensibidir.

Big Data Cluster Nedir?

Hadoop ve veri işleme-analiz etme amacıyla kullanılan, Big Data ekosisteminde bulunan yazılımlarının kurulduğu ve koordine şekilde hizmet veren node’ların bütünü Big Data Cluster’ı oluşturur. Big data ekosisteminde yer alan yazılımların yüklenmesi, yönetilmesi, node’ların kaynak kontrolleri yorucu ve maliyetli bir işlemdir. Bu işlemlerin merkezileştirilmesi sayesinde, Cluster yöneticilerinin kaynakları yönetmesi kolaylaştırılır. Bu sayede hem zamandan hem de performanstan tasarruf edilir.

Bu bilgiler ışığında “Cloudera Nedir?” sorusunun cevabını şu şekilde verebiliriz;

Big Data Cluster’ın kurulumunu kolaylaştırmak, yönetimini daha düzenli ve etkin şekilde gerçekleştirmek için merkezileştirme işlemini yapan ürünleri geliştiren en popüler şirket Cloudera’dır.

Cloudera 2008 yılında kurulmuş olan Big Data şirketidir. Kurucul isimleri şunlardır; Christophe Bisciglia (Google) Amr Awadallah (Yahoo) ve Jeff Hammerbacher (Facebook). Big Data ekosisteminde yer alan yazılımların, küçük – orta – büyük ölçekli şirketler tarafından kullanımı için production (ürün) ortamlarda kurulum ve destek hizmeti vermektedir. 3000 üzerinde çalışanı ve 28 farklı ülkede ofisi bulunmaktadır. 2000’in üzerinde şirket tarafından kullanılmaktadır. Cloudera firması ile aynı sektörde bulunan ve açık kaynak kodlu yazılımları bünyesinde barındıran Hortonworks firması 2020’nin Ocak ayında Cloudera tarafından satın alınmıştır. Ve iki şirket Cloudera çatısı altında birleşmiştir.

Cloudera Avantajları

Bir Big Data Cluster oluşturmak için Cloudera kullanmak zorunlu değildir. İhtiyaç duyulan Big Data servisleri Cluster’a dahil edilecek node’lar üzerine rolleri belirlenerek kurulup, yönetilebilir. Cloudera ise Big Data ekosisteminde yer alan açık kaynak kodlu ürünleri ve cloudera firmasının kendi geliştirdiği ürünleri harmanlayarak kurulumu ve yönetimi kolay bir Big Data platformu sunar. Cloudera kullanarak bir Cluster oluşturmanın avantajları ise şu şekilde sıralanabilir;
▪ Cloudera Big Data ekosisteminde yer alan yazılımların kolayca kurulabilmesi için merkezi
bir repository bulundurur.
▪ Bir Cluster’ın deploy edilmesi sırasında rol bazlı dağılım yapılmasını sağlar.
▪ Big Data Cluster deploy edildikten sonra servis durumları ve kaynak kullanımlarının detaylı
şekilde izlenebilmesini sağlar.
▪ Servislerin tek arayüzden yönetilmesini sağlar. Servisleri başlatma, durdurma ve yeniden
başlatma işlemleri basit şekilde bir tuşla gerçekleştirilmesini sağlar.
▪ Cluster’a node ekleme, node çıkarma gibi operasyonel yük getiren işlemleri kolaylaştırır.
▪ Cluster’da kullanılan yazılımların versiyon yükseltme işlemlerinin kolayca
gerçekleştirilmesini sağlar.
▪ Daha güvenli bir Big Data ortamı oluşturulmasını sağlar.

Cloudera CDP

7 versiyonundan önce CDH olarak isimlendirilen Apache Hadoop ve ilgili diğer ürünlerin, bir bütün halinde sunulduğu ve Cloudera tarafından geliştirilmiş olan dağıtım paketi 7 versiyonundan sonra CDP (Cloudera Data Platform) olarak isimlendirilmiştir.
CDP’nin öne çıkan özellikleri;
▪ Esneklik (Flexibility) : Farklı tipte verilerin depolanmasını, işlenmesini ve analiz edilmesini
sağlar.
▪ Bütünleşik (Integration) : Kolay kurulabilir ve bütünleşik bir Hadoop ortamı sunar.
▪ Güvenlik (Security) : Hassas veri üzerinde kontrollü şekilde işlem yapabilme imkanı sunar.
▪ Ölçeklenebilirlik (Scalability): Dağıtık mimaride çalışan bir Cluster modeline sahip
olduğundan yatay büyüme prensiblerine uygun olarak kaynakların kolaylıkla
büyütülebilmesine imkan sağlar.
▪ Yüksek erişilebilirlik (High Availability) : Cluster’da yer alan node’lardan bir veye birkaçının
hizmet kesintisi yaşaması durumunda cluster’ın hizmet vermeye devam etmesini sağlar.

Cloudera Data Platform
CDP Architecture

Cloudera Manager (CM)

Cloudera Manager, Big Data Cluster’ın yönetimi için Cloudera tarafından geliştirilmiş bir yönetim ve izleme aracıdır. Bir web arayüzünden erişilen bu araç ile Cluster, Node ve servis seviyesinde yönetimsel işlemler gerçekleştirilir. Bir Big Data Cluster’ın deploy edilmesi esnasında kurulum işlemlerinin kolayca yapılmasını sağlar. CM servisleri CMS(cloudera manager server) üzerinde çalışır. Cloudera manager clusterdaki diğer node’ları agentlar aracılığı ile izler ve yönetir. Cloudera manager cloudera-scm-server servisi ile başlatılırken, diğer agentler cloudera-scm-agent servisi ile hizmet vermektedir.

Bir sonraki makalede CM servislerinin kurulumu hakkında bilgi vereceğim ve demo bir kurulum yapacağım. İyi Çalışmalar dilerim.

Veysel YUKSEL
Latest posts by Veysel YUKSEL (see all)

Veysel YUKSEL

RDBMS ve NoSQL veri tabanı yönetimi ve Big Data teknolojileri.

You may also like...

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir