データ分析基盤の一つであるデータマート概要と設計ポイントをご紹介!

データ分析基盤の一つであるデータマート概要と設計ポイントをご紹介!

近年、データ活用の重要性が増大してきています。データを活用することで、経営判断や顧客満足度向上に利用するための様々な取り組みが可能だからです。

また、データを活用するには、データ分析用の基板(データ分析基盤)を構築し、運用していくことが必要です。データ分析基盤は以下のような種類があります。

このなかでも、本記事はデータマートについての解説と、データマートの設計ポイントについて記載していきます。

データの活用方法

そもそも、データの活用方法は具体的にどのような方法があるのでしょうか?

データは主に、以下のように活用されます。

それぞれについて、具体的に見ていきましょう。

データの可視化

データは多様な文字列で構成されますが、その文字列を人が見てわかりやすくするために、BIツールなどを利用して可視化し、人の意思決定を補助することが可能です。

最近だと、イベントなどでスマホの位置情報などのデータを分析し、人の密集状態を可視化する取り組みが各所で行われています。このような取り組みは新型コロナウイルス対策として、イベント主催者側にもイベントに訪れた人にも有用な情報を提供することができます。

データの統計分析

既存のデータから平均・分散・相関関係といった統計を取得し、分析を行います。身近な例だと、天気予報の平均気温などは過去の気象データを統計的に分析した結果になります。

アメリカのウォルマートなどは、データ分析を行うことで、ビールと乳児用の紙おむつの売り上げに相関関係を発見し、ビールと乳児用の紙おむつの陳列棚を近くにして売り上げ向上を実現しました。

データを活用した機械学習(分類、予測)

過去のデータから将来の予測や、分類といったことが行える機械学習を用いてデータを活用します。電力会社などは、機械学習を用いて気候や季節から、電力の需要を予測し、発電量を調節する、または他の電力会社から売買電をする、といったことが行われています。

また、スマートフォン上に搭載されている顔認証システムなどは、認証対象の顔から『特徴量』といったデータを抽出し、認証対象の顔を分類しています。

このように、データ活用には様々な目的や手法が存在します。膨大なデータの中から、どういった目的で、どのデータを取得するか、どの手法を用いるか、といったことを決めて、初めてデータ分析を有効に行うことができます。

データ分析基盤の一つであるデータマートとは?

など多様な目的に沿ってデータ分析を行うには、『データマート』と呼ばれるデータ分析基盤の構築、運用が必要不可欠です。

このデータマートというのは、データウェアハウスから特定の目的をもって、データを抽出・あるいは加工して保管するデータ保管システムです。『小売店(mart)』が語源となって、小型のデータウェアハウスと考えるといいでしょう。

なぜ『データマート』が必要なのか、そのほかのデータ分析基盤(データウェアハウス)と比べながら見ていきます。

データ分析基盤の一つであるDWH(データウェアハウス)とは?

データマートの解説の前に、データウェアハウスついて解説します。

データウェアハウスとは、ウェアハウス(倉庫)が語源になっていて、データをすぐに取り出して分析できるように、整理し、保存しておく場所のことです。

そのため、保存されるデータは主に構造化データが保管されます。構造化データとは、エクセルのように「列」「行」があり、「どこに何があるか」が決められているデータのことです。したがって、構造化データは加工や分析が容易であるという特徴があります。

データウェアハウスと比べたデータマートの優位性とは?

データウェアハウスと比べ、データマートはどのような点で優れているのでしょうか?

具体的に、データウェアハウスよりもデータマートが優れている点は、以下の通りです。

それぞれ、具体的に見ていきましょう。

データマートの優位性1.複数の部門が利用しやすい

データウェアハウスはデータ分析を行う部門が使うことを目的として構築されます。したがって、ほかの部門がデータ分析を行いたい場合でも、リソース等が競合したり、そもそも目的のデータが格納されていなかったりと、複数の部門にまたがって利用することに向いていません。

データマートはデータウェアハウスからデータを抽出して構築されますので、リソースの競合は起きにくく、目的のデータだけ抽出すればいいのでデータ分析を行う部門以外でも利用がしやすいのが特徴です。

データマートの優位性2.多様な目的で利用しやすい

データウェアハウスは特定のデータ分析を目的として構築されます。

例えば、10年間の日本全国の平均気温を調べる目的、といった形です。この場合、1年間の最低気温のみを調べたい場合や、将来の最高気温の推移の予測を行いたい場合は、無駄なデータが多くなってしまいます。

この場合は、最低気温のデータのみを集めたデータマートを構築すると、目的に沿った分析が行えるようになります。このように、データマートはデータウェアハウスからデータを抽出、場合によっては加工し、データを用意するため、多様な目的で利用が可能です。

データマートの優位性3.レスポンスが速い

データウェアハウスは膨大なデータ量を格納することがあります。場合によっては数TB~ペタバイト級のデータを格納することもあります。その場合、データの分析や追記に時間がかかってしまうことがあります。

一方で、データマートはせいぜい数GB~数百GB程度のデータ量を保管するため、データウェアハウスに比べてデータの分析や追記に時間がかからず、すぐに分析結果を確認することが可能です。

データマートの設計

では、データ活用のためのデータマートは、どのように設計すればいいのでしょうか?

設計ポイントとしては、以下の3点について考慮が必要です。

では、各項目について、どのような点に気をつければいいのでしょうか?以下で具体的に解説していきます。

データマートの形式

まずは、データマートの形式についてです。データマートの形式は主に以下3つがあります。要件によって、どのデータマートにするかを決定しておきましょう。

それぞれのデータマートの形式について、みていきます。

従属型データマート

既存のデータウェアハウスからデータを抽出または加工し作成されるデータマートです。既存のデータウェアハウスからデータをロードするだけで作成が可能ですし、データの形式もデータウェアハウスと同じか、近い形式なので、そのまま分析に利用できます。

独立型データマート

データウェアハウスとは別のソースからデータを得て加工されるデータマートです。外部のシステムで利用されているデータベースなどからデータを取得します。従属型のデータマートと比べ、より柔軟な目的に対応が可能です。

ハイブリッド型データマート

既存のデータウェアハウスや他のデータベースといった、複数のソースからデータを抽出または加工して作成されるデータマートです。独立型データマートや従属型データマートの利点を兼ね備えていますが、その分運用が複雑になり、難しくなります。

データマート構築の際に注意すべき拡張性とは?

設計の時点で、拡張性に関するポイントは以下の通りです。

どのようなポイントで考慮が必要なのか、見ていきます。

容量の拡張姓

1つのデータマートであれば、容量のキャパシティプランニングは容易ですが、複数のデータマートを運用する場合は、キャパシティプランニングが難しくなり、ハードウェアの容量不足でデータマートが利用できないケースに陥ることがあります。

容易に容量の追加が行える仕組みを整えておくことが必要です。

接続先の拡張性

様々なデータを抽出元として利用する必要があるので、様々なシステムとネットワークが繋がる必要があります。また、場合によってはローカルに保存されているデータからアップロードが可能な仕組みを備えておく必要もあります。

一方で、様々なデータのソースと接続を行うと、接続関係が複雑化して保守性が落ちることも考えられるので、接続関係のルール作りを行っておくなど、事前の整理も必要です。

運用を考慮したデータマート設計のポイントとは?

設計の時点で、運用に関するポイントは以下の通りです。

どのようなポイントで考慮が必要なのか、みていきましょう。

バックアップ

データマート内のデータが消えてしまうと、有効な分析ができなくなります。安全にデータマートの利用を続けるためには、バックアップの取得時間や、バックアップからのリストアについても、事前に設計を行う必要があります。

監視

データの中には、かけたデータや意図しないデータが紛れ込むことがあります。そのため、分析をおこなう際には、分析中にエラーが出力されないか、ログを取得しておく必要があります。

また、ハードウェアの容量についても、一定の閾値を設けて監視を行い、格納するデータの容量が増加し、データマートのディスクがパンクしてしまうことがないようにしておく必要があります。

データマートを活用するにはクラウドを利用しましょう!

データマートは高速にデータのロードや分析が必要です。そのような機能をオンプレミスの環境に構築するには、高性能なストレージやコンピューティング環境を用意する必要があります。

また、ストレージ製品やコンピューティング環境のカスタマイズ、運用にも多大なコストがかかってしまいます。このように、データマートから構築するには、多大なコストがかかってしまいます。加えて、上記に記載したように、データマートを利用開始した後にも、運用を行うために様々なコストがかかってしまいます。

そのようなことを回避する為に、AWSやGoogle Cloudのようなパブリッククラウドのサービスを利用してみましょう。Google CloudのBigQueryやAWSのRedshiftなどを利用すれば、高速でデータマートの構築が可能です。

加えて、バックアップや監視、ハードウェアのメンテナンスといった、煩雑な運用については、クラウド提供者側でおこなうため、複雑なデータマートの運用を簡素化することができるうえに、本来の業務の目的であるデータ分析に人的リソースを集中投入することができます。

データ分析を行う際には、クラウドを利用すると大幅なメリットを享受することができるので、考慮に入れてはいかがでしょうか?



弊社トップゲートでは、Google Cloud (GCP) 利用料3%OFFや支払代行手数料無料、請求書払い可能などGoogle Cloud (GCP)をお得に便利に利用できます。さらに専門的な知見を活かし、

など幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。

Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!

Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。

お問合せはこちら

また、弊社トップゲートは Google Cloud Platform™(以下 GCP) のプレミアパートナーとして、専門的な知見を活かし、 Google Cloud 上でのシステム構築からアプリケーション開発まで、ワンストップでご対応することが可能です。クラウドネイティブな環境構築から、新規サービスや PoC、テスト環境などスモールスタートとしての IT インフラとアプリケーションの組み合わせた開発などお客様ごとのご要望に合わせた環境を実現します。

お見積もりだけでも対応可能ですので、お気軽にお問い合わせください!

開発の詳細はこちら

データ分析基盤の環境構築にご興味がある方におすすめの記事をご紹介!

最後までご覧いただきありがとうございます。トップゲート編集部がこの記事を読んだ方におすすめしたいBigQueryに関する記事をピックアップしております。BigQueryに関して理解を深めたい方はぜひご覧ください!

BigQueryの概要を知りたい方にオススメの記事
超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!

ビッグデータの保存先はGoogle Cloudで決まり! BigQueryでデータを管理・分析のすすめ

クラウドベンダー間のデータウェアハウス(DWH)を比較したい方にオススメの記事
クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説!

BigQueryの深いところまで知りたい方にオススメの記事
BigQueryで考慮すべきセキュリティとその対策を一挙ご紹介!

【トップゲート主催】ゲーム業界様向けGCP活用のポイント 〜BigQuery編〜



弊社トップゲートでは、TOPGATE Broadcaster と称してウェビナーを定期開催しております。

など、 仕事で差がつく情報を忙しいビジネスパーソンのために短時間でコンパクトにお届けしております。

参加者さまからの「わかりやすかった」「勉強になった」など好評いただいております。取っ付きにくい内容も講師がわかりやすく解説しておりますので、お気軽にご参加ください。

TOPGATE Broadcasterの情報はこちら



メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!

メルマガ登録はこちら

関連記事

Contactお問い合わせ

Google Cloud / Google Workspace導入に関するお問い合わせ

03-6387-9250 10:00〜19:00(土日祝は除く)
Top