Cloudera Manager Nedir?
Bu yazı serisi ile uzun zamandır planladığım Cloudera Manager Nedir? Nasıl Kurulur? CM aracılığı ile bir bigdata cluster nasıl kurulur gibi sorulara cevap vermeye çalışacağım. Sonraki yazılarda kurulum adımlarını da videolar ile destekleyeceğim. Serinin ilk yazısına linkten erişebilirsiniz.
Kavramlar
CDP : Big data ekosisteminde yer alan ürün ve servislerin cloudera tarafından paketlenip ek özellikler geliştirilerek kullanıcılara sunduğu end-to-end veri yönetimi plaftormudur. Cloudera data platform ile büyük verinin yönetimi, işlenmesi, toplanması sağlanır.
Data mesh : Bu yaklaşım büyük ölçekli veri yönetim sorunlarının merkezi bir yönetim erine dağıtılmış bir yapı ile çözülebileceğini savunur.
Data lakehouses : Geleneksel veri ambarı modelinin structured veri yönetimi ve güvenilirlik özellikleri ile modern veri gölü modelinin geniş kapsamlı veri toplama ve analiz imkanları ile bir arya getirir. Bu sayede structured ve unstructured data üzerinde daha geniş veri kaynaklarından edinilen data ile analiz işlemlerinin gerçekleşmesini sağlar.
Data fabrics: Çeşitli kaynaklardan akan verinin toplandığı, işlendiği ve depolandığı bir veri yönetim altyapsını ifade eder.
CDP Private Cloud Base : CDP’nin on-premises versiyonudur. CDP ürünü Cloudera CDH ile Hortonworks Data Platform Enterprise’ın en güçlü yönleri birleştirilmiştir. Cloudera runtime ise CDP private cloud base’in içinde yer alan core open source software dağıtımıdır.
Ayrıca CDP private cloud base deployment’ın yönetim ve güvenliğini sağlamak amacı ile Cloudera Manager, apache atlas ve apache ranger toolları kullanılmaktadır.
Cloudera Manager
Cloudera Manager CDP private cluster ve cloudera runtime servislerinin yönetim, konfigürasyon ve monitör edilmesi için kullanılan web browser tabanlı bir uygulamadır. Cloudera Manager server CDP private cloud deployment’ında farklı bir host üzerinde çalışacak şekilde konumlandırılır ve bir veya daha çok CDP cluster’ın cloudera Manager agent’lar aracılığı ile yönetimini sağlar. Cloudera Manager versiyonlarının desteklediği CDH,CDP ve cloudera runtime versiyonlarına https://docs.cloudera.com/cdp-private-cloud-upgrade/latest/upgrade/topics/cm-cdh-compatibility.html linkinden ulaşılabilir. Cloudera manager’ın güncel versiyon bilgileri ise https://docs.cloudera.com/cdp-private-cloud-upgrade/latest/release-guide/topics/cdpdc-cm-version-information.html linkinden kontrol edilebilir.
Supportmatrix için ise https://supportmatrix.cloudera.com/ adresi kullanılabilir.
Deployment : Cloudera Manager ve yönetimindeki tüm clusterların oluşturduğu konfigürasyondur.
Cluster : Bigdata ekosisteminde yer alan servisleri birden çok sunucunun birlikte çalıştırması için oluşturulan fiziksel veya sanal makine topluluğuna cluster denir.
Host : Role instance’ların üzerinde çalıştığı sanal veya fiziksel sunuculardan herbiri cloudera managerda host olarak adlandırılır.
Rack : Aynı swithce bağlı hostları ifade eder.
Service : Cloudera mimarisinde çalışan HDFS,hbase,YARN,Spark vb uygulamaları ifade eder.
Service instance : Clusterda çalışan servislere ait instance’ları ifade eder.
Role : Bir servis altında yer alan farklı görev kategorilerini ifade eder. Örneğin HDFS servisinde Namenode SecondaryNameNode Datanode ve Balancer gibi roller bulunur.
Role instance : Bir sunucu üzerinde çalışan role process’ini ifade eder.
Role group : Birden çok role instance’n oluşturduğu bir konfigürasyon setini ifade eder.
Host template : Birden çok role group’un bir araya gelerek oluşturduğu yapıdır. Bir hoşta uygulanarak her role’dan istenen role instance’ın o hostta create edilmesini sağlar.
Gateway : Cluster servislerine client erişimini sağlar.
Parcel : Cloudera runtime içerisinde yer alan yazılımların binary dağıtımlarıdır.
Cloudera Manager Architecture
Mimarinin temelinde Cloudera manager’ın çalıştığı sunucu olan Cloudera manager server (CMS) bulunur. CMS servislerin kurulumu, yönetimi, cluster ve servis konfigürasyonlarının yönetiminden sorumludur.
Agentlar manager host dahil cluster üzerindeki her bir sunucuya kurulur. Agentlar aracılığı ile processler başlatılıp durdurulur ve sunucu üzerindeki konfigürasyon, kurulum, monitor işlemleri gerçekleştirilir.
Management Servisler aracılığı ile de clusterda monitoring, alerting ve reporting işlemleri gerçekleştirilir.
Database management servislerin konfigürasyon ve monitoring bilgilerini depolamak için kullanılır. Genelde her servis için ayrı bir db oluşturmak gerekir.
Cloudera repository aracılığı ile gerekli Cloudera dağıtımlarına erişilir.
Cloudera manager admin console ise web based bir yönetim aracıdır ve big data clusterin yönetim, kurulum, konfigürasyon ve monitoring işlemlerinin gerçekleştirilmesini sağlar.
Cloudera Manager API aracılığı ile de developerlar kendi custom CM uygulamalarını geliştirebilir.
Sonraki yazımda Cloudera manager kurulumu ve bir big data cluster’ın Cloudera aracılığı ile kurulum adımlarından bahsedeceğim. İyi Çalışmalar
- AWS nedir? – Cloud 101 - Mayıs 16, 2024
- Vector Databases - Mayıs 15, 2024
- Data Dünyası Nereye Gidiyor? - Mayıs 8, 2024