データウェアハウスとデータレイクは何が違うのか?

 2021.01.12  ヤマトクレジットファイナンス株式会社

経営上の意思決定スピードを高めるためのデータ活用が当たり前になった昨今のビッグデータ時代において、データを適切な状態で保管することが大きな課題になっています。企業が生み出すデータ量は年々増加しており、その構造は複雑化しています。これらの問題を解消し、課題解決に向けたソリューションを提供するのがデータウェアハウスやデータレイクです。ですが、これら2つのシステムもまた用途が異なり、適材適所で活用できないと思うようなデータ分析活動には取り組めません。本記事では、このデータウェアハウスとデータレイクの違いをご紹介します。

データウェアハウス・データレイクとは?

データウェア

世界で初めてデータベースが持ちられたのは1950年であり、文字通り「データを管理するための基盤」という意味として誕生しています。1980年代は現在でも主流のRDB(リレーショナルデータベース)が確立し、開発者とデータベースが対話しながらデータを処理する仕組みが完成しました。

データベースは通常、システムと1対1で接続されます。入出力によって生成されたデータを記録しながら、必要に応じて取り出し画面に表示しては、また記録する。そうして追加と更新を繰り返していきます。1990年代に入るとサーバー・クライアントシステムが確立し。業務・部門ごとにシステムの個別最適化が進みます。するとシステムの数だけデータベースが存在し、データ管理環境は一気に複雑化しました。

加えて、システムごとに生成されるデータのフォーマットや粒度が異なるので、データを収集して加工するだけでも大きな苦労です。そこでデータを1ヵ所に集約する必要性が生じ、そのために誕生したのがデータウェアハウスです。

データウェアハウスは複数のシステムから生成されたフォーマットや粒度の異なるデータを、同じように記録するための前処理を施してからデータベースに格納します。整理されたデータを1ヵ所に集めることで、効率的なデータ分析を可能にします。

データレイク

一方、データレイクは構造化されたデータも、構造化されていないデータも合わせた保存するための一元的なデータベースを意味します。以下に、データウェアハウス・データレイクサービスをWeb上で提供しているAmazon.comの定義を引用します。

“データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。”

引用:Amazon.com『データレイクとは

つまり、データレイクとはデータの種類にかかわらずあらゆるデータをそのままの形で一元的に保存する場所であり、なおかつビッグデータ分析やリアルタイム処理、AI研究分野など多種多様なシーンで活用するための状態でデータを維持するシステムのことです。

構造化データとは会計システム等に記録されている取引明細のような、Excel形式でまとめることのできるデータのことです。企業が管理するデータのほとんどは構造化データでしょう。一方、非構造化データとはテキストや音声、画像や動画などExcel形式でまとめられないようなデータを指します。デジタル技術企業の多くは非構造化データの蓄積・活用を推進しており、現在では「非構造化データを如何に活用するか?」がビジネスの勝敗を決定すると言われるほどです。

構造化データと非構造化データは本来、別々に管理されるべきデータです。ところがデータレイクは2つの構造が異なるデータを一緒くたに保存でき、かつ高度なデータ分析が実施できる状態を維持できます。

データウェアハウスとデータレイク、どちらが良いのか?

ビジネスではしばしば、性能面で優れているデータレイクを導入するのが正解という意見を見聞きします。しかしながら、必ずしもデータレイクが正解とは言えません。大切なのは、ビッグデータ分析に何を求め?かつ予算との兼ね合いなどを考慮することです。

データウェアハウスは長年発展してきた経緯から、コモディティ化が進みデータを管理するためのコストがデータレイクよりも圧倒的に安くなります。そのため、非構造化データを扱わないような企業の場合、性能面で優れているデータレイクよりもデータウェアハウスを導入する方が正解だと言えます。

何が正解で何が不正解なのかは各企業の環境と、ビッグデータ分析などの目的に応じて変わります。自社にとって必要なものは何か?をしっかりと見極めていきましょう。

新規CTA

EC業界のトレンド7選
クロネコ掛け払いご紹介資料

RELATED POST関連記事


RECENT POST「トレンド」の最新記事


データウェアハウスとデータレイクは何が違うのか?
New Call-to-action
New Call-to-action

RANKING人気記事ランキング

RECENT POST 最新記事

ブログ購読のお申込み
ヤマトフィナンシャル