Karışıklığı Aşmak: Veri Ambarı vs. Veri Gölü vs. Veri Gölü Evi
Yayınlanan: 2022-03-11Veri yayılımından yararlanmak için mücadele eden endüstrilerdeki CIO'lar zorlu zorluklarla karşı karşıya. Bunlardan biri, sağlam veri analitiği sağlamak için tüm kurumsal verilerinin nerede saklanacağıdır.
Veriler için geleneksel olarak iki depolama çözümü vardır: veri ambarları ve veri gölleri.
Veri ambarları esas olarak operasyonel ve işlemsel sistemlerden dönüştürülmüş, yapılandırılmış verileri depolar ve bu geçmiş veriler üzerinde hızlı karmaşık sorgular için kullanılır.
Veri gölleri, yarı yapılandırılmış ve yapılandırılmamış veriler dahil olmak üzere her türlü veriyi depolayarak bir döküm görevi görür. Canlı veri işleme veya makine öğrenimi için akış analitiği gibi gelişmiş analitiği güçlendirir.
Tarihsel olarak, veri ambarlarını kullanıma sunmak pahalıydı çünkü bunları koruma becerilerinin yanı sıra hem depolama alanı hem de bilgi işlem kaynakları için ödeme yapmanız gerekiyordu. Depolama maliyeti düştükçe veri ambarları daha ucuz hale geldi. Bazıları veri göllerinin (geleneksel olarak daha uygun maliyetli bir alternatif) artık ölü olduğuna inanıyor. Bazıları veri göllerinin hala moda olduğunu savunuyor. Bu arada, diğerleri yeni, hibrit bir veri depolama çözümü olan veri göl evlerinden bahsediyor.
Her biri ile anlaşma nedir? Yakından bir göz atalım.
Bu blog, veri ambarları, veri gölleri ve veri göl evleri, popüler teknoloji yığınları ve kullanım senaryoları arasındaki temel farkları araştırıyor. Ayrıca, bu zor olsa da, şirketiniz için doğru çözümü seçmek için ipuçları sağlar.
Veri ambarı nedir?
Veri ambarları, yapılandırılmış, küratörlü verileri depolamak, veri kümelerini tablolar ve sütunlar halinde düzenlemek için tasarlanmıştır. Bu veriler, geleneksel iş zekası, gösterge tabloları ve raporlama için kullanıcılar tarafından kolayca kullanılabilir.
Veri ambarı mimarisi
Üç katmanlı mimari, veri ambarları tasarlamak için en yaygın kullanılan yaklaşımdır. Şunları içerir:
- Alt katman: Bir hazırlama alanı ve çeşitli kaynaklardan veri yüklemek için kullanılan veri ambarının veritabanı sunucusu. Çıkarma, dönüştürme ve yükleme (ETL) süreci, verileri veri ambarına göndermek için geleneksel bir yaklaşımdır.
- Orta katman: Hızlı hesaplamalar için verileri çok boyutlu bir biçimde yeniden düzenleyen çevrimiçi analitik işleme (OLAP) için bir sunucu
- Üst katman: Verilerle çalışmak için API'ler ve ön uç araçları
Şekil 1: Veri Ambarı Referans Mimarisi

Bir veri ambarının belirtilmesi gereken diğer üç hayati bileşeni vardır: data mart, operasyonel veri depolama ve meta veriler. Veri martları alt katmana aittir. Bireysel iş kollarına hizmet ederek veri ambarı verilerinin alt kümelerini depolarlar.
Operasyonel veri depoları, basit sorgulara dayalı operasyonel raporlama için kuruluşun en güncel verilerinin anlık görüntüsünü sağlayan bir havuz görevi görür. Veri kaynakları ve veri ambarı arasında bir ara katman olarak kullanılabilirler.
Ayrıca, alt katmanda, özel amaçlı havuzlarda depolanan veri ambarı verilerini tanımlayan veriler olan meta veriler de vardır.
Veri ambarı evrimi ve teknolojileri
Veri ambarları birkaç on yıldır var.
Geleneksel olarak, veri ambarları şirket içinde barındırılırdı; bu, şirketlerin tüm donanımı satın alması ve yazılımları ücretli veya açık kaynaklı sistemler olarak yerel olarak dağıtması gerektiği anlamına geliyordu. Ayrıca veri ambarını sürdürmek için tam bir BT ekibine ihtiyaçları vardı. İyi tarafından bakıldığında, geleneksel veri ambarları gecikme sorunları olmadan hızlı bir içgörü, yüzde yüz gizlilikle birlikte verilerin tam kontrolünü ve minimum güvenlik riskini getiriyordu (ve bugün de bunu sağlıyor).
Bulutun aynı anda her yerde bulunabilmesi sayesinde, birçok kuruluş artık tüm verilerin bir bulutta depolandığı bulut veri ambarı çözümlerine geçmeyi tercih ediyor. Bir tür entegre sorgu motoru kullanılarak bir bulutta da analiz edilir.
Piyasada çeşitli yerleşik bulut veri ambarı çözümleri bulunmaktadır. Her sağlayıcı, benzersiz bir dizi depo kapasitesi ve farklı fiyatlandırma modelleri sunar. Örneğin Amazon Redshift, geleneksel bir veri ambarı olarak düzenlenmiştir. Kar tanesi de aynı şekilde. Microsoft Azure bir SQL veri ambarıdır, Google BigQuery ise, örneğin Amazon Redshift gibi altyapı veya bir hizmet olarak platform yerine özünde bir hizmet olarak yazılım (SaaS) sunan sunucusuz bir mimariye dayanır.
İyi bilinen şirket içi veri ambarı çözümleri arasında IBM Db2, Oracle Autonomous Database, IBM Netezza, Teradata Vantage, SAP HANA ve Exasol bulunur. Ayrıca bulutta da mevcutturlar.
Bulut tabanlı veri ambarları, fiziksel sunucu satın almaya veya kullanıma sunmaya gerek olmadığı için açıkça daha ucuzdur. Kullanıcılar yalnızca gerektiğinde depolama alanı ve bilgi işlem gücü için ödeme yapar. Bulut çözümlerinin ölçeklenmesi veya diğer hizmetlerle entegre edilmesi de çok daha kolaydır.
En yüksek veri kalitesi ve hızlı içgörülerle son derece spesifik iş gereksinimlerine hizmet eden veri ambarları, uzun süre kalmak için burada.
Veri ambarı kullanım senaryoları
Veri ambarları, petabaytlarca ve petabaytlarca geçmiş veriler üzerinde yüksek hızlı ve yüksek performanslı analitik sunar.
Temelde BI tipi sorgular için tasarlanmıştır. Bir veri ambarı, örneğin belirli bir zaman dilimindeki satışlar, bölge veya bölüme göre gruplandırılmış ve satışlardaki yıldan yıla hareketler hakkında bir cevap verebilir. Veri ambarları için temel kullanım örnekleri şunlardır:
- İş performansının bir resmini sunmak için işlemsel raporlama
- Bağımsız ve "tek seferlik" iş zorluklarına yanıt sağlamak için geçici analiz/raporlama
- Karmaşık gerçek dünya sorunlarını çözmek için verilerden yararlı bilgiler ve gizli kalıplar çıkarmak için veri madenciliği
- Veri görselleştirme yoluyla dinamik sunum
- Ayrıntılar için verilerin hiyerarşik boyutlarını gözden geçirmek için detaya inme
Operasyonel veritabanlarının dışında kolayca erişilebilir bir konumda yapılandırılmış iş verilerine sahip olmak, herhangi bir veri olgun şirket için oldukça önemlidir.
Ancak geleneksel veri ambarları büyük veri teknolojisini desteklemez.
Ayrıca toplu olarak güncellenirler, tüm kaynaklardan gelen kayıtlar tek seferde periyodik olarak işlenir, bu da verilerin analitik için toplandıklarında eski hale gelebileceği anlamına gelir. Veri gölü bu kısıtlamaları çözüyor gibi görünüyor. Bir takas ile. Hadi keşfedelim.
Veri gölü nedir?
Veri gölleri çoğunlukla rafine edilmemiş ham verileri orijinal biçiminde toplar. Veri gölü ve veri ambarı arasındaki diğer bir önemli fark, veri göllerinin bu verileri şema adı verilen herhangi bir mantıksal ilişkiye yerleştirmeden depolamasıdır. Ancak bu şekilde daha karmaşık analizleri mümkün kılarlar.
Veri gölleri (i) ERP, CRM veya SCM gibi iş uygulamalarından işlem verilerini, (ii) .csv ve .txt formatlarındaki belgeleri, (iii) XML, JSON ve AVRO formatları gibi yarı yapılandırılmış verileri çeker, (iv) cihaz günlükleri ve IoT sensörleri ve (v) görüntüler, ses, ikili, PDF dosyaları.
Veri gölü mimarisi
Veri gölleri, veri depolama için düz bir mimari kullanır. Anahtar bileşenleri şunlardır:
- Göle alınan tüm veriler için bronz bölge . Veriler, toplu iş modelleri için olduğu gibi veya akış iş yükleri için toplu veri kümeleri olarak depolanır
- Verilerin iş ihtiyaçlarına göre keşif için filtrelendiği ve zenginleştirildiği gümüş bölge
- BI araçları ve ML algoritmalarını uygulamak için seçilmiş, iyi yapılandırılmış verilerin depolandığı altın bölge . Bu bölge genellikle geleneksel veri ambarlarını ve veri pazarlarını besleyen operasyonel bir veri deposuna sahiptir.
- Hipotez doğrulama ve testler için verilerin denenebileceği sanal alan. Hadoop veya diğer NoSQL teknolojileri için tamamen ayrı bir veritabanı olarak veya altın bölgesinin bir parçası olarak uygulanır.
Şekil 2: Data Lake Referans Mimarisi

Veri gölleri, doğası gereği analitik yetenekler içermez. Onlar olmadan, kendi başlarına yararlı olmayan ham verileri depolarlar. Bu nedenle kuruluşlar, verileri kullanıma koymak için veri ambarları oluşturur veya veri göllerinin üzerinde diğer araçlardan yararlanır.
Bir veri gölünün bir veri bataklığına dönüşmemesini sağlamak için, veri gölü tasarımına yerleşik veri yönetişimi ve meta veri yönetimini dahil edecek verimli bir veri yönetimi stratejisine sahip olmak önemlidir. İdeal bir dünyada, bir veri gölünde bulunan veriler kataloglanmalı, indekslenmeli, doğrulanmalı ve veri kullanıcıları için kolayca erişilebilir olmalıdır. Bu nadiren olur ve birçok veri gölü projesi başarısız olur. Bu önlenebilir: Bir veri ekibinin olgunluğu ne olursa olsun, veri doğrulama ve kalitesini zorlamak için en azından temel kontrollerin kurulması kritik önem taşır.
Veri gölü evrimi ve teknolojileri
2000'lerin başında büyük verilerin yükselişi, kuruluşlar için hem büyük fırsatlar hem de büyük zorluklar getirdi. İşletmeler, büyük verilerden bir işletme etkisi elde etmek için bu devasa, dağınık ve gülünç derecede hızlı büyüyen veri kümelerini analiz etmek için yeni teknolojiye ihtiyaç duyuyordu.
2008'de Apache Hadoop, yapılandırılmamış verileri büyük ölçekte toplamak ve işlemek için yenilikçi bir açık kaynak teknolojisiyle ortaya çıktı ve büyük veri analitiği ve veri göllerinin önünü açtı. Kısa bir süre sonra, Apache Spark ortaya çıktı. Kullanımı daha kolaydı. Ayrıca, makine öğrenimi modelleri oluşturmak ve eğitmek, SQL kullanarak yapılandırılmış verileri sorgulamak ve gerçek zamanlı verileri işlemek için yetenekler sağladı.
Bugün veri gölleri ağırlıklı olarak bulutta barındırılan depolardır. AWS, Azure ve Google gibi tüm en iyi bulut sağlayıcıları, uygun maliyetli nesne depolama hizmetleriyle bulut tabanlı veri gölleri sunar. Platformları, dağıtımı otomatikleştirmek için çeşitli veri yönetimi hizmetleriyle birlikte gelir. Örneğin bir senaryoda, bir veri gölü, Hadoop Dağıtılmış Dosya Sistemi (HDFS) veya Amazon Redshift gibi bir bulut veri ambarı çözümüyle entegre Amazon S3 gibi bir veri depolama sisteminden oluşabilir. Bu bileşenler, veri işleme için Amazon EMR, veri kataloğu ve dönüştürme işlevselliği sağlayan Amazon Glue, Amazon Athena sorgulama hizmeti veya bir meta veri havuzu ve dizini oluşturmak için kullanılan Amazon Elasticsearch Service gibi ekosistemdeki hizmetlerden ayrıştırılacaktır. veri. Güvenlik, gizlilik veya gecikme gibi olağan bulut endişeleri nedeniyle yerel veri gölleri hala yaygındır.

Veri gölleri için bazı ürünler sunan şirket içi depolama satıcıları da vardır, ancak bunların veri gölü teklifleri iyi tanımlanmamıştır. Veri ambarlarının aksine, veri göllerinin arkasında uzun yıllar gerçek dünya dağıtımları yoktur. Veri gölü kavramını bulanık ve kötü tanımlanmış olarak tanımlayan hala çok eleştiri var. Eleştirmenler ayrıca, herhangi bir kuruluştaki çok az kişinin ham verilere karşı keşifsel iş yüklerini çalıştırma becerisine (veya bu konudaki hevesine) sahip olduğunu savunuyor.
Veri göllerinin tüm işletmelerin verileri için merkezi bir depo olarak kullanılması gerektiği fikrine temkinli yaklaşılması gerektiğini söylüyorlar. Veri gölü günlerinin sayılı olduğuna dair kışkırtıcı bir konuşma da yapıldı. Aşağıdaki nedenler belirtilmiştir:
- Veri gölleri, talep üzerine işlem kaynaklarını verimli bir şekilde ölçekleyemez (bunun nedeni, ilk etapta tasarım gereği tasarlanmamalarıdır)
- Veri gölleri büyük bir teknoloji borcuna sahiptir ve yaratımları teknik nedenlerden ziyade öncelikle pazarlama heyecanı tarafından yönlendirilir (aynısı birçok veri ambarında da olmuştur)
- Bulut veri ambarı çözümlerinin yükselişiyle birlikte, veri gölleri artık önemli maliyet avantajları sunmuyor (maliyet sorunu o kadar basit değil çünkü bilgi işlem maliyetlerini tahmin etmek zor)
Bu tür eleştiriler, herhangi bir genç teknolojinin doğal bir parçasıdır. Bununla birlikte, veri göllerinin akış analizi gibi net kullanım durumları vardır. Ve henüz, veri ambarlarını tehdit etmiyorlar. Bir noktada veri gölleri, daha geniş analitik yetenekleri, maliyet etkinliği ve depolanan veriler açısından esneklik sunarak veri ambarlarını geride bıraktı. Ancak, veri ambarı teknolojileri olgunlaştıkça, pek çok kişi artık açık bir kazanan olmadığı konusunda hemfikir. Genellikle her ikisini de sürdürmeniz veya… hibrit bir mimariye gitmeniz önerilir. Okumaya devam etmek.
Veri gölü kullanım örnekleri
Veri gölleri hakkındaki ana fikir, işletmelere tüm kaynaklardan elde edilen tüm mevcut verilere mümkün olan en kısa sürede erişim sağlamaktır. Veri gölleri sadece dün olanların bir resmini vermez. Muazzam miktarda veri depolayan veri gölleri, kuruluşların hem bugün (akış analitiği kullanarak) hem de gelecek (tahmini analitik ve makine öğrenimi dahil büyük veri çözümlerini kullanarak) hakkında daha fazla bilgi edinmelerini sağlamak için tasarlanmıştır. Veri gölleri için temel kullanım örnekleri şunlardır:
- Bir kurumsal veri ambarını veri kümeleriyle besleme
- Akış analizi gerçekleştirme
- Makine öğrenimi projelerini uygulama
- Tableau veya MS Power BI gibi köklü kurumsal BI araçlarını kullanarak gelişmiş analitik çizelgeleri oluşturma
- Özel veri analizi çözümleri oluşturma
- Veri ekiplerinin sorunları köklerine kadar izlemesine olanak tanıyan kök neden analizini yürütmek
Ham verileri bir analitik ortamına taşımak için güçlü veri mühendisliği becerileri ile veri gölleri son derece alakalı olabilir. Ekiplerin, nasıl yararlı olabileceğini anlamak için verilerle denemeler yapmasına olanak tanır. Bu, verileri derinlemesine incelemek ve verileri yeni şekillerde görüntülemek için farklı şemalar denemek için modeller oluşturmayı içerebilir. Veri gölleri ayrıca web günlüklerinden ve IoT sensörlerinden gelen ve geleneksel bir veri ambarı yaklaşımı için uygun olmayan akış verileriyle boğuşmaya izin verir.
Kısacası, veri gölleri, kuruluşların kalıpları ortaya çıkarmasına, değişiklikleri tahmin etmesine veya yeni ürünler veya mevcut süreçler etrafında potansiyel iş fırsatları bulmasına olanak tanır. Farklı iş ihtiyaçları için kullanılan veri gölleri ve veri ambarları genellikle birlikte uygulanır. Bir sonraki veri depolama konseptine geçmeden önce, veri ambarı ile veri gölü arasındaki temel farkları hızlıca özetleyelim.
Veri ambarı ve veri gölü karşılaştırması

Yeni bir hibrit mimariye, veri göl evlerine ne dersiniz?
Pazarlama bir yana, bir veri göl evi hakkındaki ana fikir, bir veri gölüne bilgi işlem gücü getirmektir. Mimari olarak, veri göl evi genellikle şunlardan oluşur:
- Verileri açık formatlarda depolamak için depolama katmanı (örn. Parke). Bu katman veri gölü olarak adlandırılabilir ve bilgi işlem katmanından ayrılır.
- Kuruluşa ambar yetenekleri sağlayan, meta veri yönetimini, indekslemeyi, şema uygulamasını ve ACID (Atomisite, Tutarlılık, Güvenilirlik ve Dayanıklılık) işlemlerini destekleyen bilgi işlem katmanı
- Veri varlıklarına erişmek için API katmanı
- Raporlamadan BI, veri bilimi veya makine öğrenimine kadar çeşitli iş yüklerini desteklemek için hizmet katmanı .
Şekil 3: Data Lakehouse Referans Mimarisi

Her iki dünyanın en iyileriyle bir araya gelen bir çözüm olarak lanse edilen data lakehouse, her ikisine de hitap ediyor:
- Hem yapılandırılmış hem de yapılandırılmamış verilere dayanan gelişmiş veri analitiği desteğinin olmaması ve depolamayı bilgi işlem kaynaklarından ayırmayan geleneksel veri ambarlarıyla önemli ölçeklendirme maliyetleri dahil olmak üzere veri ambarı kısıtlamaları
- Veri çoğaltma, veri kalitesi ve çeşitli görevler için birden çok sisteme erişme veya analitik araçlarıyla karmaşık entegrasyonlar uygulama ihtiyacı dahil olmak üzere veri gölü zorlukları
Veri göl evi, veri analitiği sahnesinde yeni bir gelişmedir. Konsept ilk olarak 2017 yılında Snowflake platformuyla ilgili olarak kullanıldı. 2019'da AWS, veri ambarı hizmeti Amazon Redshift kullanıcılarının Amazon S3'te depolanan verileri aramasına olanak tanıyan Amazon Redshift Spectrum hizmetini tanımlamak için veri göl evi terimini kullandı. 2020'de Databricks'in Delta Lake platformu için benimsemesiyle data lakehouse terimi yaygın bir şekilde kullanılmaya başlandı.
Farklı sektörlerdeki şirketler hizmet operasyonlarını iyileştirmek, yenilikçi ürünler ve hizmetler sunmak veya pazarlama başarısını artırmak için yapay zekayı benimserken, veri göl evinin önünde parlak bir gelecek olabilir. Veri ambarları tarafından sağlanan operasyonel sistemlerden yapılandırılmış veriler, akıllı analitik için uygun değildir; veri gölleri ise sağlam yönetişim uygulamaları, güvenlik veya ACID uyumluluğu için tasarlanmamıştır.
Veri gölü ve veri göl evi karşılaştırması

Yani veri ambarı, veri gölü ve veri göl evi: hangisini seçmeli
İster sıfırdan bir veri depolama çözümü oluşturmak ister eski sisteminizi makine öğrenimini desteklemek veya performansı artırmak için modernize etmek isteyin, doğru yanıt kolay olmayacaktır. Sağlayıcıların sunduğu teklifler ve fiyatlandırma modelleri hızla gelişirken, temel farklılıklar, faydalar ve maliyetler konusunda hâlâ çok fazla karışıklık var. Ayrıca, paydaşların katılımı olsa bile bu her zaman zor bir projedir. Ancak, veri ambarı ile veri gölü ve veri göl evi arasında seçim yaparken bazı önemli hususlar vardır.
Cevaplamanız gereken birincil soru şudur: NEDEN. Burada unutulmaması gereken iyi bir nokta, veri ambarı, göller ve göl evleri arasındaki temel farklılıkların teknolojide yatmadığıdır. Farklı iş ihtiyaçlarına hizmet etmekle ilgilidirler. Öyleyse neden ilk etapta bir veri depolama çözümüne ihtiyacınız var? Düzenli raporlama, iş zekası, gerçek zamanlı analitik, veri bilimi veya diğer karmaşık analizler için mi? İş ihtiyaçlarınız için veri tutarlılığı mı yoksa zamanlılık mı daha önemli? Kullanım senaryoları geliştirmek için biraz zaman ayırın. Analitik ihtiyaçlarınız iyi tanımlanmalıdır. Kullanıcılarınızı ve beceri kümelerinizi de derinlemesine anlamalısınız. Birkaç başparmak kuralı:
- Kesin sorularınız varsa ve düzenli olarak hangi analiz sonuçlarını almak istediğinizi biliyorsanız, bir veri ambarı iyi bir seçimdir.
- Sağlık hizmeti veya sigorta gibi yüksek düzeyde düzenlemeye tabi bir sektördeyseniz, her şeyden önce kapsamlı raporlama düzenlemelerine uymanız gerekebilir. Bu nedenle, bir veri ambarı daha iyi bir seçim olacaktır.
- KPI'larınız ve raporlama gereksinimleriniz basit geçmiş analizlerle karşılanabiliyorsa, bir veri gölü veya hibrit bir çözüm aşırıya kaçacaktır. Bunun yerine bir veri ambarı ile gidin.
- Veri ekibiniz deneysel ve keşifsel analiz peşindeyse, bir veri gölü veya hibrit bir çözüm seçin. Ancak, yapılandırılmamış verilerle çalışmak için güçlü veri analizi becerilerine ihtiyacınız olacak.
- Makine öğrenimi teknolojisinden yararlanmak isteyen, veri konusunda olgun bir kuruluşsanız, hibrit bir çözüm veya veri gölü doğal bir uyum olacaktır.
Bütçenizi ve zaman kısıtlamalarınızı da göz önünde bulundurun. Veri göllerinin oluşturulması, veri ambarlarından kesinlikle daha hızlıdır ve muhtemelen daha ucuzdur. İnisiyatifinizi aşamalı olarak uygulamak ve ölçeği büyüttükçe yetenekler eklemek isteyebilirsiniz. Eski veri depolama sisteminizi modernize etmek istiyorsanız, buna NEDEN ihtiyacınız olduğunu tekrar sormalısınız. çok mu yavaş? Yoksa daha büyük veri kümelerinde sorgu çalıştırmanıza izin vermiyor mu? Bazı veriler eksik mi? Farklı bir analiz türü çıkarmak ister misiniz? Kuruluşunuz eski sisteme çok para harcadı, bu nedenle onu ortadan kaldırmak için kesinlikle güçlü bir ticari gerekçeye ihtiyacınız var. Onu da bir yatırım getirisine bağlayın. Veri depolama mimarileri hala olgunlaşmaktadır. Nasıl gelişeceklerini kesin olarak söylemek mümkün değil. Ancak, hangi yolu seçerseniz seçin, yaygın tuzakları tanımak ve halihazırda burada bulunan teknolojiden en iyi şekilde yararlanmak yararlıdır.
Bu makalenin, veri ambarları ve veri gölleri ile veri göl evleri arasındaki bazı kafa karışıklıklarını giderdiğini umuyoruz. Hâlâ sorularınız varsa veya veri depolama çözümünüzü oluşturmak için en iyi teknik becerilere veya tavsiyeye ihtiyacınız varsa, ITRex'e bir satır bırakın. Onlar sana yardım edecek.
İlk olarak 23 Şubat 2022'de https://itrexgroup.com'da yayınlandı.
