Pentaho’da Çok Boyutlu Veri Modellemesi : Pentaho Business Analytics, Mondrian online analitik işleme ( OLAP ) motoru üzerine kurulmuştur. OLAP, sorgulandığında, bir kılavuza benzeyen bir veri kümesi döndüren çok boyutlu bir veri modeline dayanır. Bu ızgaradaki verilere anlam ve anlam katan satırlar ve sütunlar boyutlardır ve her bir hücredeki sert sayısal değerler ölçümler veya gerçeklerdir . Pentaho Analizöründe boyutlar sarı renkle gösterilmiştir ve ölçümler mavi renktedir.

OLAP, mantıksal çok boyutlu bir veritabanı tanımlayan ve fiziksel bir veritabanı modeliyle eşleştiren bir yıldız ya da kar tanesi şeması biçiminde düzgün hazırlanmış bir veri kaynağı gerektirir. İlk veri yapınızı oluşturduktan sonra, bir veya daha fazla küp, hiyerarşiden ve üyeden oluşan bir Mondrian şeması biçiminde tanımlayıcı bir katman tasarlamanız gerekir. Sadece test edilmiş ve optimize edilmiş bir Mondrian şemaya sahip olduğunuzda, verileriniz Pentaho Analyzer gibi son kullanıcı araçları için temel seviyede hazırlanır.

Pentaho’da Çok Boyutlu Veri Modellemesi

Pentaho ayrıca Pentaho Analysis Enterprise Edition müşterileri için genişletilmiş işlevsellik sunar:

  • Pentaho Analyzer görselleştirme aracı.
  • Infinispan ve Memcached dahil olmak üzere yüksek oranda ölçeklenebilir, dağıtılabilir önbellek uygulamalarını destekleyen bir takılabilir Kurumsal Önbellek.

Bu özelliklerin kullanılması Pentaho Server üzerine kurulu bir Pentaho Analysis Enterprise Edition lisansı ve Schema Workbench ve Metadata Editor’a sahip iş istasyonlarını gerektirir. Özel bir Pentaho Sunucu paketi de kurulmalıdır; Bu işlem Kurulum belgelerinde yer almaktadır.

Bu özellikler için tüm ilgili yapılandırma seçenekleri bu bölümde ele alınmıştır.

 

Verilerinizi Hazırlayın

Pentaho Analyzer ve Rapor Tasarımcısı ile kullanılmak üzere veri hazırlamak için aşağıdaki temel görevleri gerçekleştirmelisiniz:

  1. Bir Yıldız veya Kar Tanesi Şeması Tasarlama
    Tüm süreç bir veri ambarı ile başlar. Bu bölüm, bu yapının nasıl oluşturulacağını açıklamaya çalışmaz – konuyla ilgili bütün kitaplar ve buna adanmış bir danışmanlık endüstrisi vardır. Sonuç, yıldız ya da kar tanesi şema modelinde veri modeli olmalıdır. Modeli ilk denemenizde tam olarak doğru almak hakkında çok fazla endişelenmenize gerek yok. Sadece beklenen iş ihtiyaçlarınızı karşılayın; İşlemin bir kısmı, veri ambarı tasarım aşamasına geri dönüyor ve operasyonel ihtiyaçlarınızın neler olduğunu keşfettikten sonra ilk veri modelinizde değişiklikler yapıyor.
  2. Yıldız / Kar Tanesi Şemasını Doldurma
    Veri modeliniz tasarlandıktan sonra, bir sonraki adım onu ​​gerçek verilerle doldurmak ve böylece veri ambarınızı oluşturmaktır. Bu iş için en iyi araç Pentaho Veri Entegrasyonu, kurumsal sınıf bir öz, dönüşüm ve yük (ETL) uygulamasıdır.
  3. Mondrian Şeması Oluşturun
    İlk veri ambarı projeniz tamamlandığında, Pentaho Analizinin anlayabileceği şekilde bir Mondrian şeması oluşturmalısınız. Bir analiz şeması oluşturmak için Pentaho Schema Workbench’i kullanabilirsiniz.
  4. İlk Test
    Bu noktada uygun bir meta veri katmanı olan çok boyutlu bir veri yapısına sahip olmalısınız. Artık verilerinizi incelemek ve veri modellemede ilk denemenizin başarılı olup olmadığını görmek için veri inceleme araçlarını kullanmaya başlayabilirsiniz . Her halükarda, bazı ayarlamalar yapılmalıdır, bu nedenle bu ilk test aşamasında mutsuz olduğunuz tüm şema sınırlamalarını dikkate alın. Şu anda performans sorunları ile ilgilenmeyin – sadece veri modelinin bütünlüğü ve kapsamlılığına odaklanın.
  5. Ayarlanana Kadar Düzenleyin ve Tekrarlayın
    Veri ambarı ve Mondrian şemasını uygun şekilde yeniden tasarlamak için test aşamasında aldığınız notları kullanın. Hiyerarşileri ve ilişkisel ölçü toplama yöntemlerini ayarlayın. Boyutları uygulayarak çoklu olgu tablolarını analiz etmek için sanal küpler oluşturun. Yeni uygulamayı tekrar test edin ve iş modelinize mükemmel bir şekilde uyacak şekilde veri modelini geliştirmeye devam edin.
  6. Performans Testi Sınama
    Veri modelinizin tasarımından ve uygulamasından memnun olduğunuzda, performans sorunlarını bulup veri ambarı veritabanınızı ayarlayarak ve toplama tabloları oluşturarak bunları ele almalısınız. Test sadece Pentaho Analyzer kullanılarak makul bir şekilde yapılabilir. Hesaplamak için makul olmayan uzun bir zaman alan tüm önlemleri not alın. Ayrıca, SQL günlüğünü etkinleştirin ve yavaş performans gösteren sorguları bulun ve sorgu performansını en iyi duruma getirmek için dizinler oluşturun.
  7. Toplama Tabloları Oluşturma
    Notlarınızı kılavuz olarak kullanarak, sık hesaplanan Analizör raporlarını depolamak için Pentaho Toplama Tasarımcısı’nda toplama tabloları oluşturun. Yeniden test edin ve gerektiğinde yeni toplama tabloları oluşturun. Nispeten küçük bir veri ambarı veya sınırlı sayıda boyut ile çalışıyorsanız, birleştirme tablolarına gerçek bir gereksiniminiz olmayabilir. Ancak, performans sorunlarının gelecekte ortaya çıkma ihtimalinin farkında olun. Kullanıcılarınızın BI içeriklerinin hızıyla ilgili herhangi bir endişeleri olup olmadığını öğrenmek için zaman zaman giriş yapın.
  8. Üretime Dağıt
    Veri deponuz ve Mondrian şemaınız oluşturuldu, test edildi ve geliştirildi. Artık hepsini üretime sokmaya hazırsınız. Pentaho istemci araçlarını kullanan kuruluşunuz için Pentaho eğitimi almanız veya satın almanız gerekebilir.

 

Boyutlu Modelleme

İlk veri yapısı yerine, tanımlayıcı bir katman tasarlamak için boyutsal modelleme kullanabilirsiniz. Boyutsal modelleme (Pentaho’da Çok Boyutlu Veri Modellemesi), insan dostu olmayan formatlardaki birden fazla kaynaktan gelen verileri iş analitiğini desteklemek üzere organize edilen tek bir veri kaynağına dönüştürme işlemidir. Aşağıda, boyutsal bir model geliştirmek için tipik bir iş akışı vardır:

  1. İş mantığı ve süreçleri için kullanıcı gereksinimlerini toplayın.
  2. Verilerinizin tamamı göz önünde bulundurulduğunda, bunları konulara ayırın.
  3. Gerçekleri bir veya daha fazla olgu tablosuna ayırın.
  4. Düzeyler arasındaki ilişkileri çizen boyutsal tablolar tasarlamak (olgu grupları).
  5. Her bir seviyenin hangi üyelerinin her bir boyut tablosu için faydalı olduğunu belirleyin.
  6. Bir Mondrian (Pentaho Analysis) şeması oluşturun ve yayınlayın ve kullanıcılardan geri bildirim toplayın.
  7. Modelinizi kullanıcı geri bildirimlerine göre hassaslaştırın, kullanıcılar üretken oluncaya kadar bu listede yinelenmeye devam edin.

Ya da, bir dizi soru olarak ifade edilir:

  1. Verileri analiz eden kullanıcılar için hangi konular veya konular önemlidir? Kullanıcıların verilerden ne öğrenmesi gerekiyor?
  2. Kullanıcıların verilerde incelemesi gereken önemli detaylar nelerdir?
  3. Her veri sütunu diğer veri sütunlarıyla nasıl ilişkilendirilmelidir?
  4. Veri kümeleri nasıl gruplandırılmalı ve düzenlenmeli?
  5. Bir hiyerarşide her bir boyut düzeyi için bazı yararlı kısa tanımlamalar nelerdir (her bir öğe için, o elemanın içinde neyin yararlı olduğuna karar verin; örneğin, zamanı temsil eden bir boyut tablosunda, seviyenizin yıl, ay ve gün ve üyeleriniz olabilir. yıl için 2003, 2004, 2005 olabilir).
  6. Amaçlanan kullanıcı tabanı için bu boyutsal model ne kadar etkilidir? nasıl geliştirilebilir?

Pentaho Veri Entegrasyonu, daha modelleme yöntemlerinden çok daha kolay boyutsal modelleme yapmak için veri inceleme araçları sunar . PDI aracılığıyla, iş mantığınızı, olgu tablolarınızın ayrıntı düzeyini ve boyut tablolarınızın niteliklerini hızla ayarlayabilir, ardından yeni bir model oluşturabilir ve değerlendirme için bir test ortamına aktarabilirsiniz.

 

Veri Küplerini Anlamak

Boyutlu bir model için başka bir isim bir küpdür. Her küp bir olgu tablosunu ve birkaç boyutlu tabloları temsil eder. Bu model, gerçek tablodaki veriler konusunda raporlama ve analiz için yararlı olmalıdır. Bununla birlikte, bu verileri başka bir küple çapraz referans vermek istiyorsanız – iki veya daha fazla küp üzerinde verileri analiz etmeniz gerekiyorsa veya aynı konu üzerinde ancak farklı ayrıntılarla iki olgu tablosundan bilgi birleştirmeniz gerekiyorsa – o zaman sanal bir küp oluşturmak . Sanal bir küp oluşturan XML öğeleri aşağıda ayrıntılı olarak açıklanmıştır.

Sanal küpler şu anda Pentaho Veri Entegrasyonu’nun model perspektifi ile oluşturulamıyor; bunun yerine Schema Workbench kullanmalısınız.

<CubeUsages> eleman sanal küp aktarılır küpleri belirtir. <CubeUsage> öğelerini içerir.

<CubeUsage> eleman sanal küp aktarılır taban küp belirtir. Alternatif olarak, bir <VirtualCubeMeasure> tanımlayabilir ve <CubeUsage> tanımlamaksızın temel küpden benzer ithalatlar kullanabilirsiniz. CubeName özniteliği, temel küpün adını belirtir. IgnoreUnrelatedDimensions özelliği, bu temel küpten önlemler olmayan katılmadan boyut üyeleri üst düzey üyesine itilmiş olacaktır olup olmadığını belirler. Bu özellik varsayılan olarak yanlıştır, çünkü hala deneyseldir.

<VirtualCubeDimension> eleman kurucu küpleri birinden bir boyut ithal ediyor. CubeName özniteliğini belirtmezseniz, bu paylaşılan bir boyuta aktardığınız anlamına gelir.

Not: Paylaşılan boyut bir küpte birden çok kez kullanılıyorsa, içe aktarmayı düşündüğünüz paylaşılan boyutun hangisinin kullanılacağını belirlemenin bir yolu yoktur.

<VirtualCubeMeasure> elemanı oluşturan küp birinden bir ölçü alır. Aynı adla içe aktarılır. Bir formül oluşturmak veya içe aktarırken bir ölçüyü yeniden adlandırmak istiyorsanız, bunun yerine <CalculatedMember> öğesini kullanın.

Sanal küpler, farklı ayrıntılara sahip tabloların (örneğin, bir Gün gerçeği tablosunun bir Gün düzeyinde, diğeri Ay düzeyinde yapılandırılmış olabilir) veya farklı boyutlardaki olgu tablolarının olduğu durumlarda (örneğin Ürünlerde bir Zaman ve Müşteri, Ürünler, Zaman ve Depodaki başka bir şey) ve sonuçları verilerin nasıl yapılandırıldığını bilmeyen kullanıcılara sunmanız gerekir.

Her iki ortak boyut – her iki kurucu küp tarafından kullanılan paylaşılan boyutlar otomatik olarak senkronize edilir. Bu örnekte, [Zaman] ve [Ürünler] ortak boyutlardır. Dolayısıyla, eğer içerik ([Zaman]. [2005]. [Q2], [Ürünler]. [Ürün adı]. [P-51-D Mustang]) ise, küpün her iki tarafından alınan önlemler bu bağlamla ilişkili olacaktır.

Sadece bir küpe ait olan boyutlara uygun olmayan boyutlar denir . [Cinsiyet] boyutu bunun bir örneğidir; Satış küpünde var, Depoda değil. İçerik ([Cinsiyet]. [F], [Zaman]. [2005]. [Q1]) ise, [Birim Satış] ölçüsünün değerini ([Satış] küpünden gelen) sormak mantıklıdır. fakat [Sipariş Edilen Birimler] ölçüsünü değil ([Depo] ‘dan). [Cinsiyet] bağlamında. [F], [Sipariş Edilen Birimler] değeri NULL. Pentaho’da Çok Boyutlu Veri Modellemesi yazısını okuduğunuz için teşekür ederiz.

Kaynak: Multidimensional Data Modeling in Pentaho

This post is also available in: İngilizce