ホーム
お役立ち
Google Service
3大パブリッククラウドAWS GCP Azure の画像認識AIを価格や機能、精度の観点で比較！

3大パブリッククラウドAWS GCP Azure の画像認識AIを価格や機能、精度の観点で比較！

AI
API
AWS
Azure
Cloud

公開年月日: 2020.10.20

更新年月日: 2025.08.05

3大パブリッククラウドAWS GCP Azure の画像認識AIを価格や機能、精度の観点で比較！

ブログやニュースでも、しきりにAI（Artificial Intelligenceの略。人工知能）がという言葉を見聞きするようになりました。現状、様々なケースでAIが利用されており、結果として、「AIによって人間の仕事が奪われてしまうのではないか？」といった話題も散見されます。

スタンフォード大学を始めとして、いくつかの研究機関が数年後になくなる職業のリストを公表していますが、そういった職業の中には、弁護士や会計士、銀行事務員といった本来なら高給な知的労働者も含まれています。

ただ、一口にAIと言っても、その種類は様々です。例えば、画像に含まれる文字を解析して読み取ったり人の顔の表情を読み取ったりする「画像認識」、人の会話を聞き取りその内容をテキストに起こす「音声認識」、人が読み書きする自然体の文章からその内容と意味を解釈する「自然言語処理」等々。

AIに仕事を奪われる前に、まずはいち早くこれらのAIを使いこなす立場に、我々は回らなければなりません。そのきっかけとして、まず今回は「画像認識」のAIについてご紹介し、あなたが画像認識のAIを使いこなす立場に回る一助となれば、と思います。

今回の記事では、AIの画像認識について、画像認識を利用したサービスの例のご紹介、3大クラウドAWS、GCP、Azureの画像認識AIの価格、機能、精度を比較をご紹介します。

AWS、GCP、Azureの画像認識AIを利用するための方法についても記載しておりますので、ぜひ最後までご覧ください。

AIの画像認識について

画像認識は、かなり高度なアルゴリズムと数学の知識を要します。

それは、「機械学習（Machine Learning）」と呼ばれており、この機械学習には「ビッグデータ（Big Data）」の存在が欠かせません。ビッグデータとは、普段我々がSNSにアップしたコメントや写真、GoogleやBing等の検索サイトに入力した検索キーワード等、様々な大量のデータのことを言います。

AIは、この大量のデータの中から「特徴」を見出すことで、自ら学習します。これを「深層学習（Deep Learning）」と言います。また、この「特徴」を数式化したものを「特徴量」と言います。例えば、ある画像をAIに認識させる場合、AIはその画像から特徴量を算出し、ビッグデータの特徴量と比較することで、その画像を解析します。

画像認識には、クラウドの画像認識とオンプレミスの画像認識がありますが、インターネットに接続できない環境等の特別な事情がない限り、クラウドの画像認識を利用するケースがほとんどです。なぜならば、クラウドサービスの画像認識を利用する場合、本来なら高度なアルゴリズムと数学の知識を要する画像認識を、手軽に利用することができるからです。

また、AIの学習に必要なビッグデータも、個人で入手するのは難しいですが、クラウドの画像認識ならすでにビッグデータから学習済みのAIを利用できます。

では、代表的なクラウドサービスとして、AWS（Amazon Web Services）、GCP（Google Cloud Platform）、Azure（Microsoft Azure）の3つの画像認識を、様々な視点から比較してみましょう。

画像認識を利用したサービスをご紹介

さて、代表的な3つのクラウドサービスの画像認識を比較する前に、画像認識を利用したサービスの例を挙げてみましょう。

一般的な例としては、住民票や車検証、ナンバープレート等の画像から、それに含まれる文字データを取得するシステムの構築です。文字データを取得することで、目視による文字の再入力を不要とします。

また、コンビニエンスストアのレジは、店員が購買客の見た目の年齢と購入した品目を入力していますが、見た目の年齢を推測するのはAIでも可能です。さらに、AIによる画像認識は、人の顔から感情を推測することもできます。例えば、顧客満足度を調査するにはアンケートを取る方法がありますが、退場する顧客の顔から感情を読み取ることで顧客満足度を推測するシステムを構築することもできます。

AWSの画像認識 - Amazon Rekognition

まず、Amazon社のクラウドサービスである「AWS」の画像認識、「Amazon Rekognition」を紹介します。

Amazon Rekognitionについて

Amazonの画像認識は、「Amazon Rekognition」と呼ばれるサービスです。「Recognition」（認識）の綴り間違いのようにも見えますが、このサービスの綴りは「Rekognition」です。Amazon Rekognitionは、画像や動画の解析を行うためのサービスです。

Amazon Rekognition

Amazon Rekognitionの機能としては、以下のようなものがあります。

画像や動画から対象となる物体の認識やシーンの特定
独自に記憶させた画像を認識の対象とさせる機能
画像や動画から不適切なコンテンツのラベル付け
画像からテキストを検出
画像や動画から人を顔を検出し、性別や年齢、メガネや髭の有無などを分析
画像や動画から特定の人の顔を検索
画像や動画から有名人を認識
動画から人物の動線を検出

Amazon Rekognitionの料金について

Amazon Rekognitionの利用に際して発生する料金については、次のとおりです。

リージョン：アジアパシフィック（東京）
コストタイプ	料金	画像 1,000 枚あたりの料金
処理された 1 か月あたりの画像 100 万枚まで	画像あたり 0.0013USD	1.30USD
処理された 1 か月あたりの画像 101 万枚から 1,000 万枚まで*	画像あたり 0.001USD	1.00USD
処理された 1 か月あたりの画像 1,001 万枚から 1 憶枚まで*	画像あたり 0.0008USD	0.80USD
処理された 1 か月あたり画像が 1 億枚を超える*	画像あたり 0.0005USD	0.50USD

*1 枚または複数枚の画像を受け入れる API は、それぞれ処理された画像 1 枚分として計上されます。
引用元：「Amazon Rekognition の料金」

処理する画像1枚あたりの料金は非常に安く、例えば上記のとおり、画像100万枚までは1,000枚の画像を処理しても、たったの1.3米ドル（1ドル＝100円としても130円）程度ですが、後述するGCPやAzureと違い、無料プランがありません。

Amazon Rekognitionを利用するには

Amazon Rekognitionを利用するには、AWSのアカウントを作成する必要があります。アカウントの作成には、メールアドレスが必要です。また、AWSで発生したコストの請求先となるクレジットカードを登録する必要があります。クレジットカードの登録後、そのクレジットカードにAmazonから1ドルの請求が5日以内に届きます。Amazonがそのクレジットカードを有効と判断した場合、AWSへのログインが可能となります。

AWSのアカウントを作成後、「AWS マネジメントコンソール」にログインしたら、まず最初にすべきことは、IAMユーザーの登録です。IAMとは、「Identity and Access Management」の略で、AWSサービスのアクセス管理のことを言い、IAMユーザーはそのアクセス管理の対象となるユーザーのことを言います。

Amazon Rekognitionの利用に関し、IAMユーザーのアクセスIDとAWSから払い出されたシークレットアクセスキーによる認証が必要となります。また、Amazon Rekognitionによる画像認識の結果は、JSONフォーマットのテキスト形式で返ります。

Amazon Rekognitionを試してみる

Amazon Rekognitionは、以下のURLより試用することができます。（AWSにログインしておく必要があります）

Rekognition Console　オブジェクトとシーンの検出

上記のURLでは、「オブジェクトとシーンの検出」を試用することができますが、その他にもページ左側に表示されているメニューを選択することにより、以下の画像認識を試用することができます。

オブジェクトとシーンの検出
画像の節度
顔の分析
有名人の認識
顔の比較
イメージ内のテキスト

Amazon Rekognitionのメリットは、AWSのメリットにも直結しますが、わかりやすい説明とサンプルコードが豊富に用意されていることです。Amazon Rekognitionのみで500ページ超の開発者ガイドも用意されています。

Amazon Rekognition　開発者ガイド

GCPの画像認識 - Cloud Vision API

続いて、Google社の画像認識サービスである「Cloud Vision API」を紹介します。

Cloud Vision APIについて

Googleの画像認識は、「Cloud Vision API」と呼ばれるサービスによって提供されています。

Vision AI

Cloud Vision APIは、「AI & Machine Learning Products」と呼ばれる機械学習サービスの一環です。AI & Machine Learning Productsは、以下の4つの種類に分類されます。

AI Platform
Cloud AutoML
AI ビルディングブロック
AI インフラストラクチャ

このうち、Cloud Vision APIは、3つめの「AI ビルディングブロック」に分類されます。AI ビルディングブロックには、画像認識の他にも、音声認識や言語の構文解析などのサービスが含まれます。

Cloud Vision APIの料金について

Cloud Vision APIの利用に際して発生する料金については、次のとおりです。

機能	1,000 ユニットあたりの料金
機能	最初の 1,000 ユニット/月	1,001～5,000,000 ユニット/月	5,000,001～20,000,000 ユニット/月
ラベル検出	無料	$1.50	$1.00
テキスト検出	無料	$1.50	$0.60
ドキュメントテキスト検出	無料	$1.50	$0.60
セーフサーチ（不適切なコンテンツ）検出	無料	$1.50（ラベル検出を利用している場合は無料）	$0.60（ラベル検出を利用している場合は無料）
顔検出	無料	$1.50	$0.60
顔検出 - Celebrity Recognition	無料	$1.50	$0.60
ランドマーク検出	無料	$1.50	$0.60
ロゴ検出	無料	$1.50	$0.60
画像プロパティ検出	無料	$1.50	$0.60
クロップヒント検出	無料	$1.50（画像プロパティ検出を利用している場合は無料）	$0.60（画像プロパティ検出を利用している場合は無料）
ウェブ検出	無料	$3.50	Google にお問い合わせください
オブジェクトのローカライズ	無料	$2.25	$1.50

引用元：「料金 | Cloud Vision API」

Cloud Visionの課金単位は、枚数単位の課金ではなく、「ユニット」という単位で課金しています。「ユニット」とは、例えば1枚の画像において「ラベル検出」と「テキスト検出」を行った場合、1ユニットの「ラベル検出」の料金と1ユニットの「ラベル検出」の料金が発生します。

AWSの場合、利用料金は画像の枚数によってのみ決定しますが、GCPのCloud Visionの場合、利用する機能によっても発生する料金が変わります。また、すべての機能において、1カ月につき1,000ユニットまでは無料で利用できます。ただし、1,000ユニットを超過した場合の料金はAWSよりも割高で、かつユニットによって料金が加算されるため、複数の機能を同時に併用する場合は、料金が高額になる可能性もあります。

Cloud Visionを利用するには

Cloud Visionを利用するには、Googleのアカウントが必要です。また、Cloud Visionを含め、GCPのサービスを利用するには、まずGCP上で「プロジェクト」を作成する必要があります。基本的な使い方として、プロジェクトは1システムにつき1つ作成し、プロジェクトごとにGCPのどのサービスを利用するかを選択します。GCPの利用に際して発生した料金の支払いについても、クレジットカードの登録はプロジェクトごとに行います。

ただ、GCPはクレジットカードの登録が必須ではないため、Cloud Visionの無料利用枠と含め、まずは画像認識を試してみたいという方にはGCPがオススメです。システムにCloud Visionを組み込む際の認証には、GCPから発行されたAPIキーを利用する方法と、GCPから認証ファイルをダウンロードして利用する方法の2つがあります。認証ファイルのファイルフォーマットには、JSON形式とP12形式があります。

AWS同様、Cloud Visionによる画像認識の結果は、JSONフォーマットのテキスト形式で返ります。

Cloid Visionを試してみる

Cloid Visionは、以下のURLより試用することができます。（Googleのアカウントにログインしておく必要はありません）

試してみる | Cloud Vision API

Cloud Vision APIには、次のような機能があります。

顔検出
ランドマーク検出
ロゴ検出
ラベル検出
テキスト検出
ドキュメントテキスト検出（高密度テキスト / 手書き）
画像プロパティ
オブジェクトのローカライズ
クロップヒント検出
ウェブエンティティとページ
不適切なコンテンツの検出（セーフサーチ）

上記のサンプルURLは、試用した画像の認識結果に伴い、表示される機能の種類が変わります。例えば、人物の顔が含まれている画像を試用すると、「顔検出」の機能が有効になりやすくなります。

Cloud Vision APIは、文字認識（テキスト検出）が優秀です。他のクラウドサービスでは認識できなかった文字やフォントでも、Cloud Vision APIならば読み取れる場合があります。

Azureの画像認識 - Azure Cognitive Services

最後に、Microsoft社の画像認識サービスである「Azure Cognitive Services」を紹介します。

Azure Cognitive Servicesについて

Microsoftの画像認識サービスは、「Azure Cognitive Services」と呼ばれるサービスによって提供されています。

Azure Cognitive Services

まず、Azure Cognitive Servicesは、以下の5つに大きく分類されます。

決定
言語
音声
視覚
Web 検索

このうち、画像認識は「視覚」に分類されます。「視覚」サービスでは、さらに以下の種類のサービスが提供されています。

Computer Vision
Custom Vision
Face
Form Recognizer
Ink Recognizer (プレビュー)
Video Indexer

Azure Cognitive Services（視覚）の料金について

Azure Cognitive Services（視覚）の利用に際して、画像認識の「Computer Vision」および「Face」で発生する料金は、次のとおりです。

Computer Vision - リージョン：東日本
インスタンス	1 秒あたりのトランザクション数 (TPS)	機能	料金
Free - Web/コンテナー	20/分		5,000 無料トランザクション / 月
S1 - Web/コンテナー	10 TPS	タグ Face GetThumbnail 色画像の種類 GetAreaOfInterest	0 - 1,000,000 トランザクション -- $1/1,000 トランザクション 1,000,000 - 5,000,000 トランザクション -- $0.80/1,000 トランザクション 5,000,000 - 10,000,000 トランザクション -- $0.65/1,000 トランザクション 10,000,000 - 100,000,000 トランザクション -- $0.65/1,000 トランザクション 100,000,000 トランザクション以上 -- $0.65/1,000 トランザクション
		OCR 成人有名人ランドマーク検出、オブジェクトブランド	0 - 1,000,000 トランザクション -- $1.50/1,000 トランザクション 1,000,000 - 5,000,000 トランザクション -- $1/1,000 トランザクション 5,000,000 - 10,000,000 トランザクション -- $0.65/1,000 トランザクション 10,000,000 - 100,000,000 トランザクション -- $0.65/1,000 トランザクション 100,000,000 トランザクション以上 -- $0.65/1,000 トランザクション
		説明テキスト認識読み取り	$2.50/1,000 トランザクション
		空間分析	プレビュー期間中は無料です

Face - リージョン：東日本
インスタンス	1 秒あたりのトランザクション数 (TPS)	機能	料金
Free - Web/コンテナー	1 分あたり 20 件のトランザクション	顔検出顔検証顔識別顔のグループ化似た顔の検索	30,000 無料トランザクション / 月
Standard - Web/コンテナー	10 TPS	顔検出顔検証顔識別顔のグループ化似た顔の検索	0 ～ 1M のトランザクション - $1/1,000 トランザクション 1M ～ 5M のトランザクション - $0.80/1,000 トランザクション 5M ～ 100M のトランザクション - $0.60/1,000 トランザクション 100M 以上のトランザクション - $0.40/1,000 トランザクション
Standard - Web/コンテナー	10 TPS	フェイスストレージ	$0.01 (1 か月につき顔 1,000 個あたり)

引用元：Azure Cognitive Services の価格

GCPのComputer Visionと同様、枚数単位の課金ではなく、Azure Cognitive Servicesは「トランザクション」という単位で課金します。「トランザクション」も、機能の使用量によって課金しますが、Computer Visionが使用回数をトランザクションの単位とするのに対し、Faceはデータ量をトランザクションの単位とします。利用者の立場からしてみれば、料金の根拠がわかりづらいのは否めません。

Azure Cognitive Servicesにも、月ごとに無料となるトランザクションの使用量が存在します。ひと月に付き、Computer Visionは5,000トランザクション、Faceは30,000トランザクションです。ただし、この場合におけるトランザクションの意味が上記の引用元URLのどこにも記載されておらず、不明確です。

料金の根拠がわかりづらいのは、Azure Cognitive Servicesに限ったことではなく、Azure全般においてわかりづらい傾向があります。

Azure Cognitive Servicesを利用するには

Azure Cognitive Servicesを利用するには、MicrosoftアカウントもしくはGitHubのアカウントが必要です。これらのアカウントをAzureサービスのログインアカウントに紐づけます。Azureアカウントを作成するには、サービス料金の支払元となるクレジットカードの登録が必要です。

Computer Vision、Face共に、画像認識の結果は、JSONフォーマットのテキスト形式で返ります。