- ホーム
- お役立ち
- Google Service
- 【意外と簡単?】オンプレミスの DWH から BigQuery へのデータ移行を徹底解説!
【意外と簡単?】オンプレミスの DWH から BigQuery へのデータ移行を徹底解説!
- BigQuery
- DWH
- オンプレミス
- クラウド移行
- 移行
オンプレミスで運用しているデータウェアハウス( DWH )のデータをクラウド環境に移行したいと考えている方は多いのではないでしょうか。
データの保管場所をクラウド化することで、生産性向上やコスト削減など多くのメリットを享受することができます。ただし、オンプレミスの DWH からクラウド環境へのデータ移行は難しいイメージがあり、二の足を踏んでしまうケースも少なくありません。
そこで本記事では、代表的な クラウド型 DWH である「 BigQuery 」を取り上げ、オンプレミスの DWH から BigQuery へデータを移行する方法について、わかりやすくポイントをまとめてお伝えします。
目次
オンプレミスとは?
もともとプレミス( Premises )とは、「構内」や「建物」という意味を持ちます。プレミスという言葉から派生したオンプレミス( On-Premses )は、「自社運用」の意味を示します。
オンプレミスとは、システム構築に必要なサーバーや回線、ソフトウェアなどを自社内またはデータセンター内に設置し、システムの構築から運用までを自社で行う形態を指します。ちなみに、オンプレミスは「オンプレ」の略称で呼ばれることも多いです。
オンプレミスはクラウドと対比されることが多い言葉であり、それぞれ異なる特徴を持っています。以下、代表的な違いを表で示します。
オンプレミス | クラウド | |
---|---|---|
コスト形態 | 資産 | 経費 |
初期費用 | 高め | 低め |
導入までの期間 | 数週間~数か月 | アカウント登録後すぐ |
カスタマイズ性 | 自由に可能 | 制限あり |
セキュリティ | 自社内ネットワーク環境下で運用 | 災害時に強い |
オンプレミスに関しては、以下の記事が参考になります。
オンプレミスとクラウドの違いとは?メリット&デメリット、移行の注意点も解説
データウェアハウス( DWH )とは?
データウェアハウス( DWH )とは、業務に関する情報をまとめて保管しておくためのデータベースです。様々なシステムからデータを保存し、それを分析するために整理する、データの保管庫のようなイメージです。
以前まで、データ管理は容易なことではなく、目的のデータを探すだけでも大変な労力が必要でした。さらに、古いデータは削除するなどのメンテナンスも発生しており、データ管理にとても多くの時間を費やしていたため、経営判断へのデータ活用は、ハードルが高いものとして避けられてきました。
しかし、 DWH の登場によって、大容量データから該当情報を抽出したり、重複を避けてデータを保存したりできるようになったため、従来の課題を解決することができるようになりました。企業が保有するデータ量が増加し、ビックデータ活用が求められる昨今のビジネスにおいて、データウェアハウス DWH は不可欠なツールと言えるでしょう。
DWH に関しては、以下の記事が参考になります。
データウェアハウス(DWH)とは?メリットや活用例まで一挙に紹介
BigQuery とは?
BigQueryとは、 Google Cloud で提供されている機能の一つであり、とても高性能なビッグデータ解析サービスです。
BigQuery は データを保管する DWH としての役割はもちろんのこと、他にも様々な機能を搭載しています。 ETL の領域も一部カバーしており、分析に必要なデータ加工を行うことができます。例えば、膨大な元データに対する検索のクエリ結果を BigQuery のテーブルとして出力することが可能です。
さらに Hadoop や Cloud Dataflow といったデータ処理エンジンと連携することができるため、複雑なデータ加工や、リアルタイムなデータストリーミング分析などを実現することが可能です。
BigQuery はデータの処理速度に優れており、通常では長い時間かかるクエリを、数 TB (テラバイト)、数 PB (ペタバイト)のデータに対し数秒もしくは数十秒で終わらせることができます。
また、直感的に使えるインターフェースで専門知識がなくても扱うことができる点に加えて、クラウドで提供されているサービスのため、サーバーレスでスケーラビリティ(柔軟にリソースを増減すること)があり、コストパフォーマンスに優れています。
さらに、他の多彩な Google Cloud の提供するサービスともシームレスに連携もでき、扱いやすいサービスの一つとなっています。
BigQuery に関しては、以下の記事が参考になります。
超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!
BigQuery を利用するメリット
Google BigQueryが凄いところは、いくつかありますが、今回は以下の4点をご紹介します。
- 高速にデータを処理できる
- データベースの専門知識なしで扱える
- コストパフォーマンスの良さ
- 定期的なアップグレード
高速にデータを処理できる
まず最初挙げたい点としては、データの処理が高速なところです。
通常の分析サービスであれば、GB(ギガバイト)程度であれば問題なく分析できますが、TB(テラバイト)規模になると、分析結果を取得するまでに時間を要するケースが多いです。Google BigQueryは、さらにその上のPB(ペタバイト)規模のデータも高速で分析して、解を返すことができます。
約3GB(ギガバイト)のデータ処理の要した時間は1.2秒という驚異のスピードです。(2020年5月段階)
【参考記事】
【トップゲート主催】StudyJam Google Cloud Platform 無料ハンズオンラボの体験レポート
データベースの専門知識がなくても扱える
次に非常に扱いやすいという点が挙げられます。
通常、 DWH のデータベースは特にクエリ用途などがある場合には必ずチューニングが必要です。テーブルや各種領域、インデックスなどに対し、最適な計算・シミュレーションなど必要です。当然データベースのスペシャリストが必要で、スペシャリストがいるか否かなども、チューニングパフォーマンスに影響します。
ところが、Google BigQueryはそれを必要としません。従来のデータベース概念とは異なり、今までデータベースでのクエリでは必須だったインデックスすら必要としません。つまりデータベースの専門知識がなくても高速クエリが可能となっています。
コストパフォーマンスが良い
さらに BigQuery はコストパフォーマンスが圧倒的に優れています。 BigQuery のクエリ料金の目安は「1TB(テラバイト)あたり500円程度」とものすごくリーズナブルです。また、分析開始前にデータ量の把握が可能であり、処理に要する目安料金が事前にわかるため、安心してサービスを利用できます。
いくら高速なサービスがあっても扱いにくくてコストが高いものであれば、なかなか拡まらないと考えられます。ところがGoogle BigQueryはクエリ機能に限っては、上述の通り扱いやすくかつコストも安いと、すべて揃っており、総合的にもコストパフォーマンスが高いサービスと言えるでしょう。
定期的にアップグレードが施される
BigQuery は世界の最先端を走る Google が提供するサービスです。そのため、月日の経過とともに様々なサービス改善がなされており、定期的なアップデートによって自動的に性能が高くなっていきます。
オンプレミスの場合、導入してから何年経過しても使い続ける限りは、基本的に性能は変わりません。そのため、自社のビジネススケールや社会環境の変化についていくことができず、生産性を落としてしまうリスクがあります。
企業が変化の激しい時代を生き抜いていく上で、Google の成長性、そして BigQuery の将来性は大きなメリットになると言えるでしょう。
BigQuery へのデータ移行方式の種類
オンプレミスからクラウド環境への移行は多くのプロセスを伴うため、システム全体を移行するのはとても大変です。そのため、まずはデータだけを BigQuery に移行し、実際に使いながらシステム全体の移行を検討するのがオススメです。
本章では、 BigQuery へのデータ移行の方式の種類について、ケース別に詳しくご説明します。
テキストで書き出し可能な場合
DWH のデータ元がテキストで書き出し可能な形で残っている場合は、特に悩む必要はありません。そのままの形式で BigQuery にインポートできるため、手間をかけずにデータ移行を完了させることができます。
既存環境の ETL ツールが BigQuery に対応している場合(自社でツール利用可)
DHW のデータ元が残っていなくても、既存環境に ETL ツールが導入されており、自社で利用できる場合はそのまま BigQuery に連携することが可能です。 BigQuery に対応している ETL ツールとしては「 talend 」などが挙げられます。
既存環境の ETL ツールが BigQuery に対応している場合(自社でツール利用不可)
ETL ツールを自社でうまく活用できない場合でも、 ETL ツールが BigQuery に対応していれば「 BigQuery Data Transfer Service 」を使ってデータを移行することができます。
BigQuery Data Transfer Service は、簡単な操作で BigQuery にデータをインポートできるサービスであり、オンプレミスの端末側に「移行エージェント」と「 JDBC ドライバー」をセットアップして、 BigQuery にデータを流す仕組みとなっています。
GUI ( Graphical User Interface )を利用する場合
既存環境に ETL ツールがない、または、 ETL ツールが BigQuery に対応していない場合は、 GUI ( Graphical User Interface )の利用有無で移行方式が変わります。
GUI とは、マウスやタッチパネルで操作できるグラフィカルな画面のことです。「パソコン」「スマートフォン」「カーナビ」などは GUI に分類されるため、現代においてはほぼ全ての IT 機器が GUI であると言えます。 GUI 以外の代表的な例としては、文字を打ち込むことで動作を実行する windows のコマンドプロンプトが挙げられます。
GUI の利用が前提となるケースでは「 Cloud Data Fusion 」を使って BigQuery にデータを移行します。 Cloud Data Fusion はサーバーレスかつフルマネージドのデータ統合サービスであり、 GUI の画面からデータの移行を行うことができます。
本来、 Cloud Data Fusion は複数のデータソースからデータを統合するものですが、データをそのまま移行することも可能であり、 JDBC ドライバーをインポートすることで「 Netezza 」や「 Exadata 」などの DWH からデータを移行することができます。
ただし、 Cloud Data Fusion 利用時の注意点として、 Google Cloud 側からオンプレミス環境にアクセスできるようにネットワーク環境を整える必要があります。まずは自社のネットワーク環境を確認しておきましょう。
プログラミング言語を利用する場合
GUI を使わない場合は、プログラミング言語を利用してデータ移行を進めていきます。代表的なプログラミング言語としては「 Java 」や「 Python 」などが挙げられます。
Java や Python が使えるのであれば、「 Cloud Dataflow 」でデータ移行を行います。 Cloud Dataflow は代表的な ETL ツールであり、サーバーレスかつフルマネージドのデータ処理サービスです。
Java や Python で処理を作り込むことができるのはもちろん、標準で提供されているテンプレートを使うことも可能です。クラウドストレージにアップロードした JDBC ドライバーを使用して、 Netezza や Exadata に接続できるテンプレートも用意されています。
また、「 Cloud Dataproc 」と「 Apache Sqoop 」を組み合わせてデータ移行を行うことも可能です。
Cloud Dataproc はマネージドで提供される Spark / Hadoop (分散処理の機能を組み込むために利用されるフレームワークの代表格)のサービスであり、 Apache Sqoop は Hadoop 用のデータ移行ツールです。
Apache Sqoop を活用することで CSV / Avro 形式でデータ出力ができるため、そのデータを「 bq load コマンド」などを使って BigQuery にインポートする、という流れです。
Dataflowに関して理解を深めたい方は以下の記事がオススメです。
Google の ETL サービス「 Dataflow 」とは?概要、特徴、できること、料金体系まで徹底解説!
オススメなデータ移行方式の選び方
データの移行方式は1つではなく、複数のパターンが考えられます。代表的なものとしては「 Cloud Dataflow 」「 Cloud Data Fusion 」「 Cloud Dataproc 」を利用したデータ移行が挙げられます。
これら3つの移行方式を比べてみると、費用面の大きな差はなく、事前にネットワーク環境の整備が必要な点も共通しています。そのため、操作性やスキーマ移行の好みで移行方式を選択して問題ありません。
とは言え、指標が何もない状態では迷ってしまうと思いますので、選ぶときのポイントをいくつかご紹介します。
操作性
Cloud Data Fusion は GUI で操作できるため、一見簡単そうに思えますが、画面上でテーブルの数だけ設定する必要があるため、場合によっては工数が大きくなるケースがあります。
一方、 Cloud Dataflow や Cloud Dataproc は CUI (すべてキーボードで操作すること)での作業になるため、繰り返しの処理を行う場合に効率化を図ることができます。
大量データを移行する場合は、 Cloud Dataflow を活用し、カスタムテンプレートで作業を自動化する方法が、最も手間を掛けずに移行作業を進められるためオススメです。
スキーマ移行
Cloud Data Fusion 、 Cloud Dataflow 、 Cloud Dataproc の3つのサービスについて、スキーマの移行方法を表にまとめました。
利用するサービス | スキーマの移行方法 |
---|---|
Cloud Data Fusion | GUI でスキーマ情報を取得・設定 |
Cloud Dataflow | 手作業またはカスタムテンプレートを使用 |
Cloud Dataproc | Sqoop で CSV 出力した後に手作業で変換 |
このように、スキーマ移行は各ツールごとにパターンが異なるため、自社の状況に合わせて、最適な移行方式を選択してください。
なお、 Cloud Dataflow のカスタムテンプレートを活用すれば、スキーマ移行の自動化も可能になるため、作業効率を大きく向上させることができます。
まとめ
本記事では、代表的な クラウド型 DWH である「 BigQuery 」を例にとり、オンプレミスの DWH から BigQuery へデータ移行する方法を詳しくご紹介しました。
データ移行は難しいイメージを持たれがちですが、実際にはそこまで複雑なものではありません。まずは自社の既存環境を正しく把握し、適切な移行方式を検討することが大切です。
クラウドへのデータ移行は Google Cloud の BigQuery がオススメです。 DWH や ETL など、様々なサービス領域をカバーしている点に加えて、高速処理やコストパフォーマンスの良さなど、多くのメリットが存在します。
そして、 Google Cloud を契約するのであれば、トップゲートがオススメです。トップゲート経由で契約することで
- Google Cloud の利用料金が3% OFF
- クレジットカード不要で請求書払いが可能
- 導入後サポートが充実
など、様々なメリットを享受することができます。
本記事を参考にして、ぜひ Google Cloud の導入を検討してみてはいかがでしょうか。
弊社トップゲートでは、専門的な知見を活かし、
- Google Cloud (GCP)支払い代行
- システム構築からアプリケーション開発
- Google Cloud (GCP)運用サポート
- Google Cloud (GCP)に関する技術サポート、コンサルティング
など幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。
Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!
Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。
データ活用にご興味がある方におすすめの記事をご紹介!
最後までご覧いただきありがとうございます。以下では、データ分析に関する記事をピックアップしております。データ分析基盤やGoogle CloudのBigQueryに関して理解を深めたい方は以下の記事がオススメです。
データ分析基盤間の違いを理解したい方にオススメの記事
データ分析の歴史から紐解く!データウェアハウスとデータマートの違いを徹底解説
データ分析基盤の一つであるデータマート概要と設計ポイントをご紹介!
データウェアハウス(DWH)とは?メリットや活用例まで一挙に紹介
クラウドベンダー間のデータウェアハウス(DWH)を比較したい方にオススメの記事
クラウドDWH(データウェアハウス)って何?AWS,Azure,GCPを比較しながら分析の手順も解説!
BigQueryの概要を知りたい方にオススメの記事
ビッグデータの保存先はGoogle Cloudで決まり! BigQueryでデータを管理・分析のすすめ
BigQueryの深いところまで知りたい方にオススメの記事
BigQueryで考慮すべきセキュリティとその対策を一挙ご紹介!
【トップゲート主催】ゲーム業界様向けGCP活用のポイント 〜BigQuery編〜
弊社トップゲートでは、Google 技術を利用したアプリケーション開発や、DWH、BigQuery活用、機械学習に関するコンサルティングサービスを行っております。ぜひ詳細はリンク先にてご確認ください!
コンサルティングの詳細はこちら
メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!
Contactお問い合わせ
Google Cloud / Google Workspace導入に関するお問い合わせ