Cloudera Architecture
Cloudera’nın güncel vizyonundan bir önceki yazımda bahsetmeye çalışmıştım. Özellikle CDH versiyonundan CDP versiyonuna geçiş ile birlikte Cloudera’nın altyapısında da daha modern teknolojiler kullanılmaya başlandı. CDH döneminde hadoop servisleri belirli fiziksel yada sanal sunucular üzerinde kurulur, Cloudera manager ile yönetilir ve platform daha çok cluster merkezli düşünülürdü. Modern cloudera mimarisinde ise odak sadece cluster değildir. Modern Cloudera Plaformunda amaç, farklı deployment modellerini destekleyen, security ve governance katmanlarının ortaklaştığı, self-service data services sunan, hybrid ve cloud-native bir enterprise data platform oluşturmaktır.
Bu sebeple Cloudera’yı artık tek bir ürün, cluster veya CDH ile HDP’nin birleşmiş hali olarak düşünmemek gerekir. Cloudera Platformu; Cloudera Runtime, SDX, Control Plane, Data Services, Data Hub ve farklı deployment seçeneklerinden oluşan geniş bir mimari yapıdır. Bu mimari, organizasyonların hem on-premises hem cloud, hem de hybrid veri ihtiyaçlarını tekbir platform altında yönetilebilmesi için tasarlanmıştır.
Bu mimariyi anlamak için 3 altyapı modeline değinmek gerekir. Bare metal, virtualization ve cloud-native/Containerization. Cloudera’nın deployment methodları bu üç altyapı yaklaşamı üzerine oturur.
Bare Metal Model
Bare metal modelinde yazılımlar doğrudan fiziksel sunucular üzerine kurulur. Bir cluster, birbiriyle ilişkili server’lardan oluşur ve bu server’lara node denir. Hadoop dünyasında bu çok tanıdık bir modeldir. NameNode, ResourceManager, Hive Metastore gibi servisler genellikle master rolünde çalışırken; DataNode, NodeManager veya executor process’leri worker olarak çalışır. Bare metal yaklaşımı yüksek performans sağlar çünkü arada virtualization overhead yoktur. Ancak esneklik düşüktür. Yeni node eklemek, capacity planlamak, hardware lifecycle yönetmek ve failure senaryolarını kontrol etmek ciddi operasyonel maliyet getirir.

Virtualization Model
Virtualization, fiziksel donanımı soyutlayarak aynı fiziksel server üzerinde birden fazla virtual machine çalıştırmayı mümkün kılar. AWS EC2 veya Azure Virtual Machines gibi servisler bu yaklaşımın cloud’daki karşılığıdır. Her VM kendi işletim sistemine, kendi resource sınırlarına ve kendi application yapısına sahiptir. Bu model izolasyon ve provisioning açısından bare metal’e göre daha esnektir. Ancak her VM’in kendi OS katmanını taşıması resource overhead yaratır. Büyük data platformlarında bu overhead özellikle memory, disk I/O ve network performansı açısından önemli hale gelebilir.

Containerization Model
Cloud-native application yaklaşımı ise containerization ile birlikte gelir. Container’lar VM’lerden farklı olarak kendi tam işletim sistemlerini taşımaz; underlying operating system kernel’ını paylaşırlar. Her container uygulamayı ve gerekli library’leri içerir. Bu nedenle VM’e göre daha hafif, daha hızlı başlatılabilir ve daha kolay taşınabilir yapılardır. Kubernetes veya OpenShift gibi platformlar container’ları orkestre ederek modern self-service data services mimarisinin temelini oluşturur. Cloudera’nın modern platform stratejisinde containerization bu yüzden merkezi konumdadır. Çünkü data engineering, data warehouse veya AI gibi workload’ların daha elastik, izole ve otomasyonla yönetilebilir çalışmasını sağlar.

Cloudera Data Platform Architecture
Bu altyapı yöntemlerini anladıktan sonra Cloudera Data Platformunun mimarisini anlamak daha kolay hale gelir. Platformun en altında Cloudera Runtime bulunur. Cloudera Runtime, open source big data component’larının güvenli, entegre edilmiş ve test edilmiş dağıtımıdır. Hadoop, Hive, Spark, Kudu, Ranger, Atlas gibi bileşenler bu yaklaşımın parçalarıdır. Buradaki kritik nokta şudur: Cloudera sadece open source projeleri paketleyip vermekle kalmaz; bu bileşenlerin enterprise ortamda birlikte çalışmasını, security entegrasyonlarını, version compatibility’sini ve operational stability’sini sağlar. Yani Runtime, platformun çalıştığı temel altyapıyı ifade eder.
CDH tecrübesine sahip biri için en tanıdık katman Cloudera Runtime’dır. Çünkü bu katmanda hala Spark, Hive, impala, Kafka, Nifi vb tanıdık teknolojilerle karşılaşırırız. Ancak Modern Cloudera’da bu bileşenler artık tek başına düşünülemez. Bunlar Control Plane, SDX, ve Data services ile platformun bir parçası haline gelir. Eski dünyada “hangi servis hangi node üzerinde” sorusu sorulurken; yeni dünyada “hangi workload hangi data services üzerinden hangi governance politikaları ile hangi deployment modelinde çalışıyor” soruları önemli hale gelmiştir.

Platformun kalbinde ise SDX, yani Shared Data Experience bulunur. SDX’i Cloudera’nın enterprise-grade platform olmasını sağlayan ortak yönetim katmanı olarak düşünülebilir. SDX; metadata, schema, migration, security ve governance gibi konuları merkezi şekilde ele alır. Bu çok önemlidir çünkü modern veri platformlarında data farklı yerlerde durabilir: on-prem HDFS üzerinde, Ozone üzerinde, AWS S3’te, Azure ADLS’te veya Google Cloud Storage’da. Compute tarafında da Spark, Impala, Flink veya AI workload’ları farklı ortamlarda çalışabilir. Eğer security, metadata ve governance her ortamda ayrı ayrı yönetilirse platform hızla karmaşıklaşır. SDX’in amacı bu karmaşıklığı azaltmak ve ortak bir güvenlik/yönetişim modeli sağlamaktır.
SDX’i kısaca Cloudera’nın data governance ve security omurgası olarak adlandırabiliriz. Ranger policy’leri, Atlas metadata/lineage mantığı, schema bilgisi, authorization, audit ve governance prensipleri bu katmanın dünyasından birer başlıktır. Enterprise kurumlarda özellikle bankacılık gibi regüle sektörlerde bu katman kritik önemdedir. Çünkü sadece veriyi işlemek yetmez; kimin hangi veriye eriştiği, verinin nereden geldiği, nasıl dönüştüğü, hangi sistemlere aktarıldığı ve hangi policy’lerle korunduğu da yönetilmelidir.
SDX’in üzerinde Control Plane yer alır. Control Plane, platformun operasyonel yönetim ve servis dağıtım katmanıdır. Management Console, Data Catalog, Replication Manager ve Workload Manager gibi servisler bu alana girer. Control Plane için platformun merkezi yönetim beyni denebilir. Cluster’ların, environment’ların, data service’lerin, user access’lerin, workload izleme ve troubleshooting süreçlerinin merkezi buradan yönetilir. Eski CDH dünyasında Cloudera Manager bu rolün önemli bir kısmını üstleniyordu. Modern Cloudera’da ise Control Plane bu rolü daha geniş bir platform seviyesine taşır.
Management Console, platform yönetimi için temel giriş noktasıdır. Ortam oluşturma, kullanıcı/rol yönetimi, deployment işlemleri, servis provisioning ve genel platform operasyonları buradan yönetilir. Data Catalog, veri varlıklarının keşfedilmesini, metadata’nın görünür hale gelmesini ve data governance süreçlerinin işletilmesini sağlar. Replication Manager, veri ve metadata replication süreçlerinde kullanılır; özellikle disaster recovery, migration ve hybrid data movement senaryolarında önemlidir. Workload Manager ise observability katmanıdır. Workload’ları analiz etmek, troubleshoot etmek ve optimize etmek için kullanılır. Bu nokta production ortamları için çok değerlidir çünkü modern platformlarda sadece job çalıştırmak değil, job’un neden yavaşladığını, hangi query’nin kaynak tükettiğini, hangi engine’in darboğaz yaşadığını anlayabilmek gerekir.
Cloudera mimarisinde diğer önemli kavram Data Hub’dır. Data Hub, cloud ortamında hızlı şekilde provision edilebilen virtual private cluster mantığı sunar. Bare metal installation’a benzeyen ama cloud üzerinde daha hızlı ayağa kaldırılabilen bir cluster modeli gibi düşünülebilir. Data Hub daha fazla kontrol ve esneklik sağlar. Özellikle migration senaryolarında kullanışlıdır çünkü eski cluster mantığına benzeyen bir yapı sunar. CDH’den CDP’ye geçiş yapan kurumlar için Data Hub, alışılmış cluster modelinden modern cloud platforma geçişte bir köprü görevi görebilir.
Buna karşılık Data Services, daha yüksek seviye, cloud-native, self-service servislerdir. Data Hub daha çok cluster kontrolü ve esneklik sağlarken, Data Services daha çok belirli workload’lar için yönetilen servis deneyimi sunar. Örneğin Data Engineering, Data Warehouse ve Cloudera AI gibi servisler kullanıcıların altyapı detaylarıyla daha az uğraşıp doğrudan iş yüküne odaklanmasını sağlar. Cloud deployment tarafında Data Flow, Data Engineering, Data Warehouse, Operational Database ve Cloudera AI gibi daha geniş servis seti bulunurken; on-premises modelde Data Engineering, Data Warehouse ve Cloudera AI gibi servisler öne çıkar.
Burada önemli ayrım şudur: Data Hub “cluster-like control” verir; Data Services ise “self-service workload experience” verir. Bir data engineer için Data Engineering service üzerinden Spark job çalıştırmak, klasik cluster üzerinde Spark submit etmekten daha platform-native bir deneyimdir. Bir analyst için Data Warehouse service üzerinden SQL endpoint kullanmak, Impala daemon’larının hangi node’da çalıştığını düşünmeden query yazabilmek anlamına gelir. Bir data scientist için Cloudera AI, model geliştirme, experiment yönetimi ve deployment süreçlerini platform içinde yönetilebilir hale getirir.
Cloudera Deployment Models
Cloudera’non deployment modelleri bu servislerin nasıl konumlandığını da belirler. Cloudera on Cloud, Cloudera On Premises ve Cloudera Base on Premises olmak üzere 3 ana deployment modeli vardır.
Cloudera on Cloud, AWS, Azure ve GCP üzerinde çalışan PaaS(Platform As A Service) modelidir. Bu modelde common components olan Control Plane, SDX ve Cloudera Runtime bulunur; ancak platformun birçok operasyonel detayı Cloudera tarafından yönetilir. Cloud-native architecture kullanır, container tabanlı self-service data services sağlar ve cloud provider storage servislerini kullanır. Yani S3, ADLS veya GCS gibi object storage katmanları üzerinde compute-storage separation uygulanır. Bu modelin temel avantajı esnek, hızlı provisioning ve operasyonel yükün azalmasıdır. Compute ve storage ayrıldığı için workload ihtiyacına göre compute tarafı scale edilebilir; data ise object storage’da kalır.

Cloudera on Premises, modern Cloudera platformunun kurum içinde kurulabilen modelidir. Burada yine Control Plane, SDX ve Cloudera Runtime bulunur; ancak yazılım kurumun kendi ekibi tarafından kurulur ve yönetilir. Bu model ECS veya OpenShift üzerinde çalışabilir. Container tabanlı self-service data services desteklenir. Storage tarafında HDFS veya Ozone kullanılabilir. Özellikle regülasyon, veri mahremiyeti, latency veya mevcut veri merkezi yatırımları nedeniyle cloud’a tamamen çıkamayan kurumlar için bu model önemlidir. Bankacılık gibi sektörlerde Cloudera on premises stratejik bir seçenektir çünkü modern container-based platform deneyimini kurum içi veri merkezinde sunar.

Cloudera Base on Premises ise daha klasik modele yakındır. Burada Cloudera Manager, SDX Security and Governance ve Cloudera Runtime temel bileşenlerdir. Cluster’lar bare metal host’lar veya VM’ler üzerinde çalışır. Bu model CDH/HDP geçmişine daha yakındır ve mevcut Hadoop yatırımlarını modernize etmek isteyen kurumlar için anlamlıdır. Base on premises modelinde workload’lar daha geleneksel bare metal yapıda çalışır; ancak ihtiyaç olduğunda cloud’a workload kaydırma yaklaşımı desteklenebilir. Bu da hybrid kullanım senaryoları için önemlidir.

Sonuç
Bu üç deployment modelini karşılaştırırken temel karar sorusu şudur: Kurumun önceliği operasyonel kolaylık mı, maksimum kontrol mü, yoksa mevcut yatırımların korunması mı? Cloud modeli daha az operasyonel yük ve daha fazla esneklik sağlar. On premises modeli modern platform yeteneklerini kurum içinde sağlar. Base on premises modeli ise mevcut Hadoop/CDH benzeri yapıları koruyarak daha kontrollü bir modernizasyon yolu sunar.
Bütün bu mimariyi bir araya getirdiğimizde Cloudera platformunu iki ana perspektiften düşünebiliriz. Birinci perspektif platform yönetimidir: Control Plane, Management Console, Data Catalog, Replication Manager ve Workload Manager ile ortamlar, servisler, metadata, replication ve workload observability yönetilir. İkinci perspektif veri işleme ve servis tüketimidir: Data Services, Data Hub ve Cloudera Runtime ile data engineering, data warehousing, streaming, operational database ve AI workload’ları çalıştırılır. SDX ise bu iki dünyanın ortasında ortak güvenlik, metadata ve governance katmanı olarak yer alır.
Cloudera artık sadece Hadoop servislerinden oluşan bir cluster değildir. Cloudera, farklı altyapı modellerinde çalışabilen, open source bileşenleri enterprise seviyede entegre eden, SDX ile ortak governance sağlayan, Control Plane ile merkezi yönetilen ve Data Services ile self-service workload deneyimi sunan hybrid enterprise data platform’dur.
CDH geçmişinden gelen biri için bu dönüşümün zihinsel karşılığı çok önemlidir. Eskiden platform tasarımı çoğunlukla şu sorular etrafında yapılırdı: kaç node olacak, NameNode nerede çalışacak, YARN queue nasıl tasarlanacak, HDFS replication kaç olacak, Hive ve Impala nasıl konumlanacak? Modern Cloudera dünyasında bu sorular hâlâ önemlidir ama artık yeterli değildir. Yeni sorular şunlardır: workload cloud’da mı on-prem’de mi çalışmalı, data hangi storage katmanında durmalı, compute-storage separation nasıl uygulanmalı, hangi data service hangi kullanıcı profiline açılmalı, SDX policy’leri tüm ortamlarda nasıl tutarlı uygulanmalı, lineage ve audit nasıl merkezi yönetilmeli, migration Data Hub üzerinden mi yoksa Data Services üzerinden mi ilerlemeli?
Profesyoneller için bu yaklaşımı anlayabilmek kendilerini Hadoop admin seviyesinden modern Cloudera platform architect seviyesine taşımalarına yardımcı olacaktır. Çünkü artık mesele sadece servis kurmak değil; doğru deployment modelini, doğru workload modelini, doğru governance mimarisini ve doğru operasyonel kontrol seviyesini tasarlamaktır.
- Cloudera Architecture - Mayıs 6, 2026
- Cloudera’nın Evrimi - Nisan 30, 2026
- AWS nedir? – Cloud 101 - Mayıs 16, 2024