ホーム
お役立ち
Google Service
「Kaggleで勝つデータ分析の技術」著者が語るGCPを活用してKaggleで勝つためのポイント

「Kaggleで勝つデータ分析の技術」著者が語るGCPを活用してKaggleで勝つためのポイント

AI
Google Cloud Day
kaggle

公開年月日: 2020.06.21

更新年月日: 2025.05.02

「Kaggleで勝つデータ分析の技術」著者が語るGCPを活用してKaggleで勝つためのポイント

Googleが開催するイベントのGoogle Cloud Dayでは、Google Cloudの最新ソリューションを学ぶことができます。

2020年はCOVID-19の影響もあり、リモートでの開催となりました。

この記事では数あるセッションの中から、Kaggleに関連するセッションを取り上げ、機械学習のモデリング技術を競い合うKagglerと呼ばれる人の中の1人である、「Kaggleで勝つデータ分析の技術」著者「平松雄司」氏がどのように GCP を活用するかについてご紹介します。

この記事でご紹介するセッション

この記事ではGoogle Cloud Dayで公開された下記のセッションを参考に、GCPにおけるKaggleの活用方法についてご紹介します。

Kaggleで勝つGCPの活用方法

取り上げる主な Google Cloud 製品 / サービスは以下になります。

AI Platform
Compute Engine
BigQuery
AutoML

Kaggleとは

kaggle

世界中のデータサイエンティスト・機械学習エンジニア向けのコミュニティで、様々なデータデータ分析コンペティションが開催されています。

コンペの評価指標に基づいて優劣を争います。メダルに応じた称号システムや賞金があり、Kaggleでの成績を人材採用の参考にする企業も増えてきています。

そういった流れから、Kaggleの話題をメディアで目にする機会も増えてきています。

称号システム(Kaggle Progression System)

Kaggleには称号システムがあり5つのTierに分かれています。メダルの色や数によって昇格する仕組みとなっています。

Grandmaster
Master
Expert
Contributor
Novice

このうちKaggle Masterはデータサイエンティストの目標とされることが多いです。

Cloud AI NotebooksでKaggleワークフローをパワーアップ

Notebooksと使用時の課題

NotebooksはKaggleに用意されているブラウザ上の実行環境で、学習を行い予測を提出することもできます。

Notebooksは無料で利用できますが、以下のような課題もあります。

Computingリソースは自由に構成できない
計算量が多いタスクは学習に時間がかかる
アイドル時間が長い時のセッション切れ

AI Platform Notebooks(CAIP Notebooks)とは

AI Platform NotebooksはJupyterLab統合開発環境を提供するマネージドサービスです。以下のような特徴があります。

最新の機械学習フレームワークが設定済みの環境をワンクリックでデプロイ完了
簡単にスケールアップ/ダウンが可能
NotebooksからGCPリソースにアクセス可能
モデルの構築・学習・デプロイまで機械学習のライフサイクルをサポート

AI Platform Notebooksの仕組み

AI Platform Notebooks

Notebooksインスタンスはプロジェクト内のGCEとして存在しているので、ハードウェアの選択が可能で必要に応じてスケールアップやスケールダウンが可能です。
Notebooks内からシンプルな記述でGCSやBigQueryにアクセスが可能です。
好きなフレームワークを選択するだけでインスタンスが作成・起動できます。
一度作成したインスタンスでも、CPUコア数やメモリを変更可能です。

bigquery

BigQueryとの連携イメージ。BigQueryの結果をPandasデータフレームとして参照しています。

gcloudコマンドでもインスタンスを起動可能で、GPUインスタンスやTPUインスタンス、プリエンティブルインスタンスも作成可能。

ただし、プリエンティブルインスタンスは安価だが、Google側から予告なく削除されることがあるので注意が必要です。

実演

セッションでは実際にインスタンスを作成し、環境に接続する様子がデモンストレーションされました。

インスタンス作成後、画像のように「JUPYTERLABを開く」をクリックするだけで簡単にNotebooks環境に接続できます。

jupyterlab-demo

プラットフォームの比較

Kaggle NotebooksやColaboratoryは無料で利用できるのがメリットです。一方、Cloud AI Platform Notebooksはマシンタイプを自由に構成でき、GPUタイプを4種類選べるのがポイントです。利用時間の制限がないなど、エンタープライズ向けの環境が整っており、本格派の環境といえます。

	Cloud AI Platform Notebooks	Kaggle	Colaboratory
ハードウェア構成	自由に構成	CPU(4core, 16GB RAM), GPU(13GB RAM)	2core, 13GB RAM
GPU Spec	Nvidia K80, T4, P4, P100から選択	Tesla P100	選択不可 ※GPU/TPUの選択は可能
利用時間制限	なし	Sumit時の時間制限およびGPU使用時時間制約	連続12時間
対応言語	Python, R	Python, R	Python
SSHアクセス	○	×	△
セキュリティ	△（IPによる制限）	×	△
無料コンピューティング	×	○	○