Cf. datacamp.pxf.io
■ 一連のSTORY
[ 🌊 ] > [ 🎣 / 🔪 / 🚶 ] > [ 🏘 ] > [ 🗃 ]
(なんかマイクラみたいなんだね。)
|| 🌊 Data Lake (DL)
データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。
データレイクはリレーショナルデータベースの構造化データ(列と行)や、半構造化データ(CSV、ログ、XML、JSON)、非構造化データ(Eメール、ドキュメント、PDF)、バイナリデータ(画像、音声、映像)を含めることができる。
2010年頃にデータレイクという概念が登場した。 データレイクは、多種多様なデータを格納する。 構造データのみならず、非構造データもローデータで格納する。
ただ、なんでもかんでもブチ込むと、データレイクもその美しさを保たず、データスワンプ(沼)へと変貌する。 水質汚染を無くすべくデータカタログなるものが大事とのこと。
Cf.
| 🎣 ETL(Extract/ Transform/ Load)
Cf.
|| 🏘 Data Wear House (DWH)
データウェアハウスとは、直訳すれば「データの倉庫」である。利用者により定義範囲は異なるが、一般に時系列に整理された大量の統合業務データ、もしくはその管理システムを指す。
定義 データウェアの提唱はアメリカの計算機科学者ビル・インモン(英語版)(William H. Inmon)で、1990年の著作によれば、「データウェアハウスは、意志決定(Decision)のため、目的別(Purpose-oriented)に編成され、統合(Integrate)された時系列で、削除(Delete)や更新(Update)しないデータの集合体」とされる。 複数の基幹系システム(製造管理システム、販売管理システム、会計システムなど)から、トランザクション(取引)を抽出して、再構成・再蓄積したシステムを指すことが多い。 ー データウェアハウス - Wikipedia
Cf.
|| 🗃 Data Mart (DM)
利用部門ごとに使用するデータや分析内容が異なることが多いため、その利用部門が必要とするデータのみをデータウェアハウスから抽出したり、その利用部門が必要とする分析データをあらかじめ集計することにより、分析レスポンスを向上できる。これは、データ容量が小さくなることやリクエストのたびに集計値を計算することがなくなるためにレスポンスが向上できることと、通常は利用部門ごとにサーバを設置するためにサーバ単位の同時ユーザ数が減るためでもある。
従属型データマート
使うデータをガチガチに定義してDWHから抽出。
独立型データマート
DWHを介さず単一のビジネス機能(サブジェクト領域)だけを対象として抽出。
ハイブリット型データマート
DWHと運用元システムデータをがっちゃんこにして使う。
Cf.データ分析基盤の基本と構築のポイント - Data Design
| CDP(Customer Data Platform)
Cf. データ統合に必要な仕組み Data Lake / ETL / DWH とCDPの構成 - Integral Core
|| ⚖️ 比較
| DL - DWH
DL DWH データ構造 ローデータ 処理済みデータ データの目的 未確定 現在使用中 ユーザー データサイエンティスト ビジネス担当者 アクセス性 高度にアクセス可能、迅速な更新 より複雑、変更のコストが高い
| DWH - DM
DWH DM サイズ 100GB以上 100GB未満 サブジェクト 複数 単一 範囲 全社的 専門部門 データソース 多数 少数 データ結合 全てのビジネスデータ 単一サブジェクト領域 要構築時間 数ヵ月~数年 数分~数週間
|| データ分析基盤 - 一連の流れ
Cf.