効率的なデータクレンジングを実現する Cloud Dataprep とは?メリットや活用事例まで一挙に紹介!

効率的なデータクレンジングを実現する Cloud Dataprep とは?メリットや活用事例まで一挙に紹介!

Cloud Dataprep というサービスをご存知でしょうか? Google と Trifacta が共同開発したデータクレンジングツールです。 Cloud Dataprep を活用することで、データの変換・加工を手間なく行うことができます。

本記事では、 Cloud Dataprep とは何か?という基礎的な内容に加えて、 Cloud Dataprep のメリットやできること、活用事例まで一挙にご紹介します。

Cloud Dataprep とは?

Cloud Dataprep は Google Cloud (GCP)に内包されているデータクレンジングサービスです。構造化データと非構造化データを視覚的に探索し、簡単にクレンジング処理を行うことができます。

データクレンジングとは、その名前の通り「データをクレンジング(洗浄)すること」を意味する言葉です。データクリーニングという名称が使われることもあります。つまり、自社が保有するデータを綺麗な形に整えることがデータクレンジングの目的です。

Cloud Dataprep は Google と Trifacta (米国のソフトウェア会社)が共同開発したサービスであり、 Google 公式サイトでは「 Cloud Dataprep by Trifacta 」という名称で掲載されています。便宜上、本記事では Cloud Dataprep と記載していますので、その点はあらかじめご承知ください。

Cloud Dataprep はサーバーレスで提供されているため、規模を問わずに利用できるほか、自社でインフラ設備を整える必要もありません。さらに GUI で操作できる点も Cloud Dataprep の大きな特徴であり、複雑かつ煩雑なデータ処理を簡単に実行することが可能です。

このように、 Cloud Dataprep は迅速かつ直感的にデータ処理を実行できるため、業務の生産性を高めたい場合には最適なツールであると言えます。

データクレンジングに関心のある方は以下の記事がオススメです。

データ活用に欠かせないデータクレンジングとは?具体的な方法を4ステップで解説!

Cloud Dataprep の対応フォーマット

本章では Cloud Dataprep が対応しているフォーマットをご紹介します。入力と出力に分けて見ていきましょう。

入力フォーマット

Cloud Dataprep への入力は以下のフォーマットに対応しています。

入力時は Cloud Dataprep の画面から直接データをアップロードできます。また、 Cloud Storage 上のデータや BigQuery のテーブルを参照して利用することも可能です。

出力フォーマット

Cloud Dataprep からの出力は以下のフォーマットに対応しています。

Cloud Dataprep から出力したデータ Cloud Storage へ取り込んで保管したり、 Avro で出力したものを BigQuery へ格納することもできます。

Cloud Dataprep のサンプルアーキテクチャ

以下、 Cloud Dataprep のサンプルアーキテクチャを図で示します。

1

※出典・参照: Google Cloud 公式ページ「新たな柔軟性: BigQuery や Dataflow で Dataprep ジョブを実行

Cloud Dataprep の BigQuery プッシュダウンを使用すると、 BigQuery または Dataflow のどちらでジョブを実行するか?を柔軟に選択できます。

仮に BigQuery を選択した場合は BigQuery SQL ステートメントでデータパイプラインを部分的または完全に変換できるかどうかが Dataprep によって自動的に判断されます。そして、 BigQuery で実行できないパイプラインの部分は Dataflow で実行されます。

また、 BigQuery の機能を利用するとフィルタや結合、ユニオン、集計などの操作で効率性の高いデータ変換が可能になります。 Dataprep BigQuery プッシュダウンを活用することで、 IAM と OAuth のサポートにより、パフォーマンス向上やコスト最適化、セキュリティ向上を実現できます。

Cloud Dataprep のメリット

Cloud Dataprep には、どのようなメリットが存在するのでしょうか。代表的なものをいくつかご紹介します。

サーバーレスで提供

Cloud Dataprep は Google パートナー企業である Trifacta が運営する統合パートナーサービスであり、業界トップクラスのデータ準備ソリューションをベースにしています。

そして、 Google は Trifacta との密な連携により、シームレスなユーザーエクスペリエンスを実現しています。そのため、事前のソフトウェアインストールや追加のライセンス費用は不要であり、継続的な運用オーバーヘッドも発生しません。

Cloud Dataprep はフルマネージドかつサーバーレスで提供されており、企業ごとのニーズに応じてオンデマンドでスケーリングされるため、担当者は手間なく運用でき、分析に専念することが可能になります。

使いやすい操作性

Cloud Dataprep は、最適なデータ変換操作を自動で提案・予測してくれます。変換の流れや配列をあらかじめ定義しておけば、 Dataprep が内部的に Dataflow または BigQuery を使用し、あらゆるサイズのデータセットを数回のクリックで処理できるようにします。

そのため、複雑なコードを記述する必要はなく、誰でも簡単にデータクレンジングを実行できます。本来、データの変換・加工を行うためには、難しいコーディングが必要であり、専門的な知識を持った人しか操作できないため、この点は Cloud Dataprep の大きなメリットであると言えます。

Dataflow に関心のある方は以下の記事がオススメです。

Google の ETL サービス「 Dataflow 」とは?概要、特徴、できること、料金体系まで徹底解説!

BigQuery に関心のある方は以下の記事がオススメです。

超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!

迅速なデータ探索と異常検出

Cloud Dataprep を活用することで、視覚的なデータ分布により、データを瞬時に把握・探索できます。例えば、スキーマやデータ型、可能な結合、異常(欠損値、外れ値、重複値)などを自動的に検出することが可能です。

これにより、本来は長い時間を要するデータ品質評価作業を省略し、すぐにデータの探索・分析に着手できます。データ分析を迅速に行うことで、後続アクションを速やかに進められるため、スピーディーに自社の課題解決や業務効率化を実現でき、競合優位性に直結します。

Cloud Dataprep でできること

Cloud Dataprep には様々なメリットが存在し、手間なくデータクレンジングを行うことが可能です。それでは、 Cloud Dataprep を使うことで何ができるのでしょうか?具体的なイメージが湧きやすいように、身近な例を2つご紹介します。

住所データから都道府県だけを切り出す

住所データの都道府県から番地までの情報が一つのデータとして存在している場合、フィルタリングができずに苦労した経験はありませんか?このような場合、 Cloud Dataprep で解決することができます。「都」「道」「府」「県」という文字を指定して別カラムに抽出することで、住所データの都道府県のみを別項目として分離します。これにより、データの利便性が大きく向上します。

電話番号からハイフンを削除する

Cloud Dataprep を使えば、電話番号からハイフンを除去し、数字のみに変換することができます。電話番号が入力されているカラムを指定し、パターンを選択して全ての情報を統一化するだけで完了します。電話番号のハイフンの有無を統一することで、一定のルールに基づいた一括処理が可能になるため、地味ですが実用性は高いと言えます。



ここでは、イメージが湧きやすいように基本的かつ身近な2つの例を挙げましたが、 Cloud Dataprep はさらに複雑なデータ変換・加工を行うことも可能です。自社においてどのような活用ができるのか、ぜひ考えてみてください。

Cloud Dataprep の料金体系

Cloud Dataprep には2つのエディションが存在し、それぞれ料金が異なります。なお、 Cloud Dataprep の表示料金は米ドルですが、請求先アカウントで指定されている通貨(円)に換算されて請求されます。

以下の表では「1米ドル = 128.14 円」の為替レートで計算しています。

エディション 月額料金
Starter エディション(1ヶ月契約) 12,814円 + 使用料金
Starter エディション(1年契約) 10,251円 + 使用料金
Professional エディション(1ヶ月契約) 64,068円 + 使用料金
Professional エディション(1年契約) 51,254円 + 使用料金

このように、 Starter エディションよりも Professional エディションの方が料金が高く、1ヶ月契約よりも1年契約でサービスを利用した方がお得な料金で利用できることがわかります。

そして、 Cloud Dataprep の使用料金は「設計」と「実行」の2つの変数に分けられます。設計はプロジェクト単位で料金が計算され、ユーザー数に上限はありません。また、実行料金は Dataprep でジョブを実行する Dataflow の使用量で構成されます。

また、参考までに各エディションでできることの比較表を記載します。 Google Cloud 公式のマーケットプレイスを参照しており、項目が英語になっていますのであらかじめご承知おきください。

Starter エディション Professional エディション
Predictive Data Transformation
Collaboration & Sharing
Connectivity to Cloud Storage 、 Files 、 Google Sheets 、 BigQuery
Data Profiling
Adaptive Data Quality ×
Universal Data Connectivity ×
Scheduling and Orchestration for Data Pipelines ×
Customer Success ×

この表からわかるように、 Starter エディションよりも Professional エディションの方が数多くの記載が搭載されています。

Cloud Dataprep の活用事例

Cloud Dataprep は多くの企業で活用されており、業務効率化や生産性向上に大きく貢献しています。本章では、具体的な Cloud Dataprep の活用事例を2つご紹介します。

マーケティングエージェンシー

データベースのマーケティングソリューションを専門とするマーケティングエージェンシーの Merkle は、データ活用のために BigQuery を活用しており、分析用の新しいデータを BigQuery に取り込むためのツールとして Cloud Dataprep を採用しています。

同社の IT アーキテクトである Henry Culver 氏は以下のように述べています。

「 Cloud Dataprep を使用すると、新しいデータセットをすばやく表示して理解でき、その柔​​軟性がデータ変換のニーズをサポートします。 GUI は適切に設計されているため、学習曲線は最小限に抑えられます。私たちの最初のデータ準備作業は、数時間や数日ではなく、数分で完了します。」

手間なく迅速にデータを取り込むことができる Cloud Dataprep を活用して、自社の生産性向上を実現している事例のご紹介でした。

ベンチャー開発センター

1996年に設立された Venture Development Center (ベンチャー開発センター)は、クライアントがビジネスの変革とデータの収益化に繋がる可能性のあるビッグデータのユースケースを定義、特定、実装するのを支援するアドバイザリーサービス会社です。同社では、自社サービスの提供において Cloud Dataprep と BigQuery を活用しています。

同社の代表である Matthew Staudt 氏は以下のように述べています。

「 Cloud Dataprep と BigQuery を備えた Google Cloud (GCP)が、まさに私たちが探していたものであることがすぐにわかりました。データカタログ、 QA 、配信サイクルへの能力と動きを発展させるにつれて、 Cloud Dataprep はこれを迅速かつ適切に達成することを可能にします。」

このように、膨大かつ多様なビッグデータを扱うベンチャー開発センターにおいても、 Cloud Dataprep は問題なく動作し、迅速かつ正確なデータクレンジングを実行していることが伺えます。

データクレンジングは Google Cloud (GCP)がオススメ

ここまで、 Cloud Dataprep について詳しくご紹介しましたが、データは綺麗に整理して終わりではありません。そのデータを分析して、経営戦略に反映してこそ初めて真の価値を発揮します。その観点では、 Google Cloud (GCP)でデータクレンジングを行うことで、すべてのプロセスを一気通貫で実現することができます。

Google Cloud (GCP)とは、 Google が提供しているパブリッククラウドサービスです。同じ種別のサービスとしては Microsoft 提供の Azure や Amazon 提供の AWS などが挙げられます。主に IaaS ・ PaaS の領域をカバーしており、用途に応じて利用できる様々な構成要素がサービスとして提供されています。

Google Cloud (GCP)には、高性能なビッグデータ分析サービスである BigQuery が搭載されています。そして、データ分析を行うための前準備として Cloud Dataprep を活用し、自社が保有するデータを綺麗に整理することで、スムーズなデータ分析を実現できます。

BigQuery は ビッグデータ解析サービスであり、通常では長い時間かかるクエリを、数 TB (テラバイト)、数 PB (ペタバイト)のデータに対して、数秒もしくは数十秒で終わらせることができます。また、膨大なデータを保管するデータウェアハウス(DWH)としての機能も兼ね備えています。

つまり、 Google Cloud (GCP)を活用することで、データの蓄積からデータの整理、そしてデータ分析まで、データ活用におけるすべてのプロセスを一つのサービスで完結できるというわけです。さらに、 Cloud Dataprep と BigQuery はどちらも100%クラウドで提供されているサービスであるため、サーバーレスで柔軟に拡張できる点もメリットの一つです。

加えて、 BigQuery は通常のデータベースとは異なり、データベースに関する専門知識がなくても直感的に操作することができます。料金も 1TB (テラバイト)500円程度とリーズナブルであり、分析前にデータ量を確認することで事前に料金の目安を把握できるため、安心してサービスを利用可能です。

このように、 Google Cloud (GCP)でデータクレンジングを行うことで、企業は多くのメリットを享受できます。 Cloud Dataprep や BigQuery は、他の多彩な Google Cloud (GCP)サービスともシームレスに連携できるため、あらゆるシーンにおける業務効率化や生産性向上を期待できます。

自社のデータ活用を進めていく上で、 Google Cloud (GCP)はとても有効な選択肢になると言えるでしょう。

Google Cloud (GCP) に関しては、以下の記事で詳しく解説しています。

Google Cloud Platform™ (GCP) とは

BigQuery に関しては、以下の記事で詳しく解説しています。

超高速でデータ分析できる!専門知識なしで扱えるGoogle BigQueryがとにかくスゴイ!

データウェアハウス(DWH)に関しては、以下の記事で詳しく解説しています。

データウェアハウス(DWH)とは?メリットや活用例まで一挙に紹介

まとめ

本記事では、 Cloud Dataprep とは何か?という基礎的な内容に加えて、 Cloud Dataprep のメリットやできること、活用事例まで一挙にご紹介しました。

データ活用の重要性が叫ばれている現代において、 Cloud Dataprep はとても有効なソリューションであると言えます。 Cloud Dataprep を活用することで、手間なく迅速にデータクレンジングを行うことが可能になります。

また、データは綺麗に整理して終わりではありません。いくら貴重なデータをたくさん保有していても、一切使わなければ何も持っていないのと同じことです。自社のデータを分析・活用して、経営戦略に反映してこそ初めて真の価値を発揮します。

その観点では、 Google Cloud (GCP)でデータクレンジングを行うのがオススメです。 Google Cloud (GCP)に搭載されている Google Cloud Dataprep や BigQuery を活用することで、データの蓄積、整理、分析まで、データ活用におけるすべてのプロセスを一気通貫で実行できます。

本記事を参考にして、ぜひ Google Cloud (GCP)の導入を検討してみてはいかがでしょうか?

また、記事の中でご紹介した「データの整形」や「データの整理」は、会社の状況によっては自社完結が難しいケースもあると思います。そのような場合は、プロのサポートを受けられるサービスを利用するのも有効な選択肢の一つです。

弊社トップゲートでも Google Cloud (GCP)に関するコンサルティングサービスを提供していますので、自社のデータを活用してデータドリブン経営を実現したいと考えている方は、ぜひ以下のサービスもご検討ください。導入前の問い合わせも受け付けていますので、まずはお気軽にご相談いただければと思います。

Google の技術活用サポートサービス「T-PAS (TOPGATE Professional Advisory Service)」



弊社トップゲートでは、Google Cloud (GCP) 利用料3%OFFや支払代行手数料無料、請求書払い可能などGoogle Cloud (GCP)をお得に便利に利用できます。さらに専門的な知見を活かし、

など幅広くあなたのビジネスを加速させるためにサポートをワンストップで対応することが可能です。

Google Workspace(旧G Suite)に関しても、実績に裏付けられた技術力やさまざまな導入支援実績があります。あなたの状況に最適な利用方法の提案から運用のサポートまでのあなたに寄り添ったサポートを実現します!

Google Cloud (GCP)、またはGoogle Workspace(旧G Suite)の導入をご検討をされている方はお気軽にお問い合わせください。

お問い合わせする

メール登録者数3万件!TOPGATE MAGAZINE大好評配信中!
Google Cloud(GCP)、Google Workspace(旧G Suite) 、TOPGATEの最新情報が満載!

メルマガ登録はこちら

関連記事

Contactお問い合わせ

Google Cloud / Google Workspace導入に関するお問い合わせ

03-6387-9250 10:00〜19:00(土日祝は除く)
Top