Bigdata Nedir, Nereden Başlamalı?

Bugünkü yazım teknik bir konuda olmayacak. Özellikle sektöre yeni girmiş yada alan değiştirmek isteyen arkadaşlarımızdan gelen sorular neticesinde bu yazıyı yazmaya karar verdim. Bigdata nedir? Bigdata Admin ne iş yapar kısaca bahsedeceğim. Öğrenci arkadaşlarımızın da kendilerine uygun alanı belirlemesinde yardımcı olabileceğini düşünüyorum. 

Öncelikle ben kariyerime Oracle veritabanı uzmanı olarak, danışmanlık sektöründe başladım. Daha sonra oracle teknolojilerinin yanında postgresql ile ilgilenmeye de başladım. RDBMS’ler üzerinde çalışırken bir yandan ilgimi çeken nosql veri tabanı çözümlerinden olan Mongodb, Cassandra gibi veritabanlarını da kurcalamaya başladım. Çalıştığım kurumlarda bir süre sonra Oracle DBA ünvanından “Veri Tabanı Uzmanı – Mühendisi” pozisyonuna geçmiş bulundum. Yani daha geniş ölçekli altyapılarla ilgilenmeye başladım. Daha sonra Big data teknolojileri ile ilgilenmeye başladım. Hadoop mimarisi ile ilgilenirken ekosistemdeki birçok open Source ürün ile çalışma fırsatı buldum. Şu anda finans sektöründe 100’den fazla node’a sahip Cloudera Big data clusterların yönetiminden sorumlu bir ekipte yer alıyorum. Aynı zamanda nosql teknolojileri ve Elasticsearch gibi teknolojilerle birlikte 20’den fazla open Source ürünün de yönetim süreçleri aynı ekibin sorumluluğunda. Sektördeki 12.yılıma girerken biraz da Cloud teknolojilerinde kendimi geliştirmek adına çeşitli çalışmalarıma devam ediyorum.

Tercih Edebileceğiniz Alanlar

Bilgisayar Mühendisliği öğrencilerinin temel yanılgısı, bölüme başlar başlamaz yazılımcı olarak mezun olacaklarını varsaymaları. Bu yanılgıdan çok bir kabulleniş aslında. Bilgisayar mühendisliği kazanıldığı zaman yazılımcı olmaktan başka bir seçeneği yokmuş gibi davranan birçok insan gördüm. Ancak yukarıda kendi uğraş alanlarımdan bahsettiğim gibi birçok farklı alana yönelebilirsiniz. Her işin kendine göre pozitif ve negatif yanları var. Önemli olan sizin yatkın olduğunuz alanı bulabilmekte. Bilgisayar mühendisliği öğrencileri aşağıdaki alanların ne olduğunu ne iş yaptığını araştırmadan yazılımcı olmaya karar vermemeli.

Network,
System,
Yazılım,
Security,
Cloud,
Embedded Systems,
Database,
Data Science,
Big Data

Bu sektörlerin çoğunda çalışabilmek için de aslında bilgisayar mühendisliği öğrencisi olmaya gerek yok. Gerekli öğrenme stratejileri ve düzenli, azimli bir çalışma takvimi ile kendinizi ispat edebileceğiniz alanlar. Hele de günümüzde elimizin altındaki kaynak bolluğunu düşünürsek bu ihtimal hiç de azımsanacak oranda değil.

Big Data Nedir?

Giriş kısmını böyle yaptıktan sonra gelelim kendi ilgi alanım olan Big Data konusuna. Big data’nın tanımını şu şekilde yapabiliriz;

“Big data yani büyük veri mimarisi, boyutu ve çeşitliliği artan büyük ölçekli verinin performanslı ve düşük maliyetle depolanıp işlenmesine imkan veren mimariye verilen isimdir.”

Big data admin ne iş yapar sorusunun cevabını da şu şekilde verebiliriz;

▪ Big data ortamlarının yönetimini sağlar.

▪ Büyük verinin depolanacağı HDFS (Hadoop) altyapısını kurar ve yönetir.

▪ Farklı kaynaklardaki verinin Big data ortamlarına aktarılmasını sağlar.

▪ Big data ortamı ile ilgili kaynakların maksimum performans ve minimum maliyetle çalışmasını sağlar.

▪ Big data admin, Hadoop ekosistemi ve bu ekosistemde yer alan her türlü yazılımın kurulumu ve yönetiminden sorumludur.

▪ Linux işletim sistemleri ve veritabanları-veri depolama mantığı konusunda temel seviyede bilgi sahibi olmalıdır. İyi bir linux bilgisi ise iyi bir big data admin olmanın en büyük adımlarındandır. Çünkü bu sistemler linux işletim sistemi üzerinde koşan ve doğrudan bağımlı sistemlerdir.

Data odaklı işlerin ve Big data mimarisine neden ihtiyaç duyulduğunun cevabı aşağıdaki grafikte açıkça görülmektedir. Zamanla verinin büyüme hızındaki artış da data depolama sistemlerinin evrimleşmesine neden olmuştur. Bu değişim şüphesiz ki devam edecektir. Ancak temel amaç hiçbir zaman değişmeyecektir. Bu temel amaç da “verinin düşük maliyetle depolanarak, bu depolanan veriden şirket lehine değer üretilmesidir.

Bigdata nedir
Data artış hızı

Bigdata mimarisi

Big data mimarisini öğrenmek isteyen arkadaşlar sürekli öğrenme ve güncel kalma yetkinliklerine sahip olmalıdır. Çünkü birçok open Source teknoloji bu ekosistemde yer almaktadır. Ayrıca birçok veri kaynağından veri çekilip büyük veri altyapısında (hadoop’da) depolanmaktadır. Dolayısı ile rdbms’ler, nosql db’ler, search engine’ler, csv file’lar gibi veri tutabilen her tür kaynakla ilişkili az da olsa fikriniz olmalıdır. Bunun yanında veri analizinden sorumlu birimlerin yazdığı işlerin sizin sorumluluğunuzdaki Big data sistemleri üzerinde çalıştığını düşünürsek, az da olsa işlerin – uygulamaların çalışma mantığı ile ilgili de fikir edinilmelidir.

Bu şekilde sayınca biraz korkutucu gelebilir ancak işe yarar bir öğrenme methodu ile kendi kendinize bile kurcalayabileceğiniz mimarilerdir bunlar. Kendi adıma öğrenme yöntemim hep şu oldu;

Önce mimarinin temel amaçlarını, kullanım alanlarını öğrenip incelerim,

Daha sonra official dökümanları takip ederek ilgili teknolojinin kurulumlarını kendi VM ortamlarımda yaparım.

VM ortamını kurduktan sonra onun üzerinde official dökümanı takip ederek how-to kısımları çözer ve kendime göre notlar alırım.

YouTube’da işime yarayacak içerikleri izler, sonra blog sitelerinden bu teknolojiler hakkında püf noktaları toplarım.

Eğer hala eksik kalan noktalarım varsa mutlaka vendor’un yada bilgisine güvendiğim insanların eğitim setlerini takip ederim.

Aşağıda 2021 yılında bir eğitim öncesi hazırladığım Big Data ve DataScience Nedir Sunumuna Erişebilirsiniz. Başlangıç için temel ve faydalı bilgiler içermekte.

Nereden Başlamalı?

Aşağıda Big data konusunda kendisini geliştirmek isteyen arkadaşlarım için bir yol haritası veya başlangıç olabilecek nitelikte konu başlıklarını bulabilirsiniz;
Linux İşletim Sistemlerine Giriş ve Çok kullanılan komutlar.

Big Data Nedir.

Big Data Teknolojisinin Kullanım alanları.

Hadoop File System Mimarisi

Map-reduce işlemleri

Big Data Platformları (Cloudera)

Cloudera ile big data kurulumu

Big Data ile Sorgulama İşlemleri

Big Data ile Veri Aktarım İşlemleri

NoSQL Veri Tabanları

Elasticsearch

Big data konusunda IBM’in ücretsiz eğitimlerine erişebileceğiniz birçok platform bulunmakta. Bunun yanında cloudera.com‘dan Cloudera university’e üye olursanız da free birçok eğitim bulabilirsiniz. Yine Youtube’da introduction to hadoop ve introduction to big data konularında birçok eğitim seti bulunmakta. Kendi YouTube kanalımda da temel linux dersleri ve farklı konularda zaman zaman yayımladığım eğitim içerikleri bulunmakta.


Her konuda olduğu gibi önemli olan karar vermek ve verilen kararları istikrarlı şekilde uygulamaktır. Herkese iyi çalışmalar ve kolaylıklar.

Veysel YUKSEL
Latest posts by Veysel YUKSEL (see all)

Veysel YUKSEL

RDBMS ve NoSQL veri tabanı yönetimi ve Big Data teknolojileri.

You may also like...

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir